AIGC動態歡迎閱讀
原標題:ICML 2024 Oral | DPO是否比PPO更適合LLM,清華吳翼團隊最新揭秘
關鍵字:模型,算法,團隊,代碼,工作
文章來源:機器之心
內容字數:0字
內容摘要:
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com吳翼,清華大學交叉信息院助理教授,曾任 OpenAI 全職研究員,研究領域為強化學習,大模型對齊,人機交互,機器人學習等。2019 年在美國加州大學伯克利分校獲得博士學位,師從 Stuart Russell 教授;2014 年本科畢業于清華大學交叉信息院(姚班)。其代表作包括:NIPS2016 最佳論文,Value Iteration Network;多智能體深度強化學習領域最高引用論文,MADDPG 算法;OpenAI hide-and-seek 項目等。
如何讓大模型更好的遵從人類指令和意圖?如何讓大模型有更好的推理能力?如何讓大模型避免幻覺?能否解決這些問題,是讓大模型真正廣泛可用,甚至實現超級智能(Super Intelligence)最為關鍵的技術挑
原文鏈接:ICML 2024 Oral | DPO是否比PPO更適合LLM,清華吳翼團隊最新揭秘
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...