AIGC動態歡迎閱讀
原標題:OpenAI-o1思考替代法火了!焦劍濤高徒一作提出思考偏好優化,不限于推理任務
關鍵字:模型,基線,過程,提示,鏈式
文章來源:量子位
內容字數:0字
內容摘要:
西風 發自 凹非寺量子位 | 公眾號 QbitAIOpenAI-o1替代品來了,大模型能根據任務復雜度進行不同時間的思考。
不限于推理性的邏輯或數學任務,一般問答也能思考的那種。
最近暢銷書《Python機器學習》作者Sebastian Raschka推薦了一項新研究,被網友們齊刷刷碼住了。
論文一作為華人學者Tianhao Wu,導師之一是2011年清華特獎得主焦劍濤。
團隊提出了一種稱作思考偏好優化(Thought Preference Optimization)的方法,能讓模型像OpenAI-o1一樣,通過內部“思考”輸出更好答案,最終只顯示結果,不展示思考過程。
TPO將思維鏈式提示/推理融入訓練中:
在回答之前,用思維鏈式方法進行思考;使用一個LLM評判來評估響應(不包括由LLM生成的想法);根據被拒絕和優選的響應形成偏好對進行DPO(包括這些響應中的想法)。
基于Llama 3 8B Instruct的結果表明,TPO效果相當好。
有意思的是,如果添加了思維提示,但Llama 3 8B Instruct基礎模型沒有在偏好對上經歷DPO微調,那么這個基礎模型的性能會比沒有思維
原文鏈接:OpenAI-o1思考替代法火了!焦劍濤高徒一作提出思考偏好優化,不限于推理任務
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...