AIGC動態歡迎閱讀
原標題:大模型RLHF不必非得靠人,谷歌:AI反饋效果一樣好
文章來源:量子位
內容字數:3757字
內容摘要:克雷西 發自 凹非寺量子位 | 公眾號 QbitAI說起現如今訓大模型的核心方法,RLHF是繞不開的話題。RLHF,即基于人類反饋的強化學習,無論是ChatGPT還是開源的LLaMA都離不開它。但其中的“H”卻是一大瓶頸,因為收集高質量的人類反饋實在是太難了。那能不能交給AI來做呢?的確有人就這么干了,但能否替代RLHF一直沒有定論,直到Google進行了這項研究。在一篇新發布的arXiv論文中,…
原文鏈接:點此閱讀原文:大模型RLHF不必非得靠人,谷歌:AI反饋效果一樣好
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...