標簽:梯度
清華提出 SoRA,參數量只有 LoRA 的 70%,表現更好!
夕小瑤科技說 原創作者 | 智商掉了一地、Python現在有很多關于大型語言模型(LLM)的研究,都圍繞著如何高效微調展開。微調是利用模型在大規模通用數據上學到...
OpenAI安全系統負責人長文梳理:大模型的對抗攻擊與防御
選自Lil’Log作者:Lilian Weng機器之心編譯編輯:PandaLLM 能力強大,倘若別有用心之人用其來干壞事,可能會造成難以預料的嚴重后果。雖然大多數商用和開源 L...
北大全新「機械手」算法:輔助花式抓杯子,GTX 1650實現150fps推斷|NeurIPS 2023
新智元報道編輯:LRS 好困【新智元導讀】新方法結合擴散模型和強化學習,將抓取問題分解為「如何抓」以及「何時抓」,平價顯卡即可實現實時交互。手是人類與...
準確率降至3%,主任務性能幾乎不變!華工JHU提出全新「聯邦學習攻擊識別」解決方案|ICCV2023
新智元報道編輯:LRS【新智元導讀】無懼聯邦學習中的后門攻擊!全新解決方案利用多指標和動態加權來自適應地識別后門,在難度最高的Edge-case PGD中,后門準...
上下文學習=對比學習?人大揭示ICL推理背后的隱式更新機理:梯度更新了嗎?「如更」
新智元報道編輯:LRS【新智元導讀】人民大學最新研究,首次從「對比學習」的角度來理解上下文學習,或可提供自注意力機制的改進思路。近些年來,基于Transfor...
英偉達開源新Agent!用了GPT-4后,機器人把轉筆、盤核桃都玩明白了
夕小瑤科技說 分享來源 | 量子位作者 | 白交訓練機器人,AI比人類更拿手!英偉達最新AI AgentEureka,用GPT-4生成獎勵函數,結果教會機器人完成了三十多個復...
用GPT-4訓練機器人,英偉達最新Agent開源:任務越復雜越拿手
白交 發自 凹非寺量子位 | 公眾號 QbitAI訓練機器人,AI比人類更拿手!英偉達最新AI AgentEureka,用GPT-4生成獎勵函數,結果教會機器人完成了三十多個復雜任...
在RTX 4090被限制的時代下,讓大模型使用RLHF更高效的方法來了
機器之心專欄機器之心編輯部該論文介紹了一種名為 ReMax 的新算法,專為基于人類反饋的強化學習(RLHF)而設計。ReMax 在計算效率(約減少 50% 的 GPU 內存和...
從觀察、思考到行動,深度強化學牛Pieter Abbeel談如何馴服機器人
機器之心報道編輯:大盤雞這樣學,還能那樣學。人類的大腦具有學習新事物的能力,而且學習方式多種多樣,從模仿他人到觀看在線解說視頻,不一而足。如果機器...
32卡176%訓練加速,開源大模型訓練框架Megatron-LLaMA來了
機器之心發布機器之心編輯部9 月 12 日,淘天集團聯合愛橙科技正式對外開源大模型訓練框架 ——Megatron-LLaMA,旨在讓技術開發者們能夠更方便的提升大語言模型...