<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        OpenAI-o1思考替代法火了!焦劍濤高徒一作提出思考偏好優化,不限于推理任務

        AIGC動態10個月前發布 量子位
        375 0 0

        OpenAI-o1思考替代法火了!焦劍濤高徒一作提出思考偏好優化,不限于推理任務

        AIGC動態歡迎閱讀

        原標題:OpenAI-o1思考替代法火了!焦劍濤高徒一作提出思考偏好優化,不限于推理任務
        關鍵字:模型,基線,過程,提示,鏈式
        文章來源:量子位
        內容字數:0字

        內容摘要:


        西風 發自 凹非寺量子位 | 公眾號 QbitAIOpenAI-o1替代品來了,大模型能根據任務復雜度進行不同時間的思考。
        不限于推理性的邏輯或數學任務,一般問答也能思考的那種。
        最近暢銷書《Python機器學習》作者Sebastian Raschka推薦了一項新研究,被網友們齊刷刷碼住了。
        論文一作為華人學者Tianhao Wu,導師之一是2011年清華特獎得主焦劍濤。
        團隊提出了一種稱作思考偏好優化(Thought Preference Optimization)的方法,能讓模型像OpenAI-o1一樣,通過內部“思考”輸出更好答案,最終只顯示結果,不展示思考過程。
        TPO將思維鏈式提示/推理融入訓練中:
        在回答之前,用思維鏈式方法進行思考;使用一個LLM評判來評估響應(不包括由LLM生成的想法);根據被拒絕和優選的響應形成偏好對進行DPO(包括這些響應中的想法)。
        基于Llama 3 8B Instruct的結果表明,TPO效果相當好。
        有意思的是,如果添加了思維提示,但Llama 3 8B Instruct基礎模型沒有在偏好對上經歷DPO微調,那么這個基礎模型的性能會比沒有思維


        原文鏈接:OpenAI-o1思考替代法火了!焦劍濤高徒一作提出思考偏好優化,不限于推理任務

        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 久久久久久久久无码精品亚洲日韩| 亚洲国产精品VA在线观看麻豆| 免费人成毛片动漫在线播放| 暖暖日本免费中文字幕| 午夜福利不卡片在线播放免费| 在线观看免费国产视频| 亚洲国产成人精品无码一区二区| 亚洲精品天堂在线观看| caoporm碰最新免费公开视频| 亚洲av区一区二区三| 亚洲中文字幕在线乱码| 巨胸喷奶水www永久免费| 亚洲婷婷五月综合狠狠爱| 久久久久免费视频| 亚洲av无码不卡一区二区三区| 国产一区二区免费| 亚洲黄色在线观看网站| 一级毛片在播放免费| 国产亚洲精品AA片在线观看不加载| 精品熟女少妇aⅴ免费久久| 亚洲AV无码一区二区三区DV| 91高清免费国产自产拍2021| 精品国产亚洲男女在线线电影| 三年片免费观看大全国语| 久久亚洲精品无码aⅴ大香 | 亚洲一区爱区精品无码| 国产成人精品无码免费看| 亚洲成电影在线观看青青| 成人毛片免费观看视频大全| 色噜噜狠狠色综合免费视频| 亚洲一区二区三区影院| 无码精品人妻一区二区三区免费看 | 无码人妻久久一区二区三区免费 | 亚洲AV永久无码精品网站在线观看 | 亚洲码一区二区三区| 女同免费毛片在线播放| 91嫩草亚洲精品| 无码专区一va亚洲v专区在线 | 久久伊人亚洲AV无码网站| 91久久精品国产免费一区| 亚洲国产精品美女久久久久|