AIGC動態歡迎閱讀
原標題:大模型自我獎勵:Meta讓Llama2自己給自己微調,性能超越了GPT-4
關鍵字:模型,指令,自我,能力,數據
文章來源:機器之心
內容字數:5180字
內容摘要:
機器之心報道
編輯:澤南、蛋醬人工智能的反饋(AIF)要代替 RLHF 了?大模型領域中,微調是改進模型性能的重要一步。隨著開源大模型逐漸變多,人們總結出了很多種微調方式,其中一些取得了很好的效果。
最近,來自 Meta、紐約大學的研究者用「自我獎勵方法」,讓大模型自己生成自己的微調數據,給人帶來了一點新的震撼。
在新方法中,作者對 Llama 2 70B 進行了三個迭代的微調,生成的模型在 AlpacaEval 2.0 排行榜上優于一眾現有重要大模型,包括 Claude 2、Gemini Pro 和 GPT-4。因此,論文剛剛發上 arXiv 幾個小時就引起了人們的注意。
雖然目前方法還沒有開源,但是人們認為論文中使用的方法描述清晰,復現起來應該不難。
眾所周知,使用人類偏好數據調整大語言模型(LLM)可以極大提高預訓練模型的指令跟蹤性能。在 GPT 系列中,OpenAI 提出了人類反饋強化學習 (RLHF) 的標準方法,讓大模型可以從人類偏好中學習獎勵模型,再使得獎勵模型被凍結并用于使用強化學習訓練 LLM,這種方法已獲得了巨大的成功。
最近出現的新思路是完全避免訓練獎勵模型,并直
原文鏈接:大模型自我獎勵:Meta讓Llama2自己給自己微調,性能超越了GPT-4
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...