人工智能的崛起：新神降臨還是滅霸的末日審判？

發(fā)布了新的Reinforcement Finetuning方法~

原標(biāo)題：OpenAI的強(qiáng)化微調(diào)：RL+Science 創(chuàng)造新神還是滅霸
文章來源：智猩猩GenAI
內(nèi)容字?jǐn)?shù)：3287字

OpenAI發(fā)布新的強(qiáng)化微調(diào)方法

2024年12月6日，加州時(shí)間上午11點(diǎn)，OpenAI推出了一種新的強(qiáng)化微調(diào)方法（Reinforcement Finetuning,RFT），旨在構(gòu)造專家模型，特別適用于醫(yī)療診斷和罕見病診斷等特定領(lǐng)域的決策問題。該方法允許用戶上傳幾十到幾千條訓(xùn)練案例，通過微調(diào)實(shí)現(xiàn)高效決策。

強(qiáng)化微調(diào)的技術(shù)背景

此次發(fā)布的RFT方法基于廣泛應(yīng)用于對齊（alignment）、數(shù)學(xué)和編碼領(lǐng)域的技術(shù)，前身為人類反饋的強(qiáng)化學(xué)習(xí)（Reinforcement Learning from Human Feedback,RLHF）。RLHF通過用戶選擇偏好來訓(xùn)練獎(jiǎng)勵(lì)模型（reward model），并利用強(qiáng)化學(xué)習(xí)算法（如PPO和DPO）對模型進(jìn)行微調(diào)，從而使模型生成更符合人類偏好的內(nèi)容。

RFT的核心機(jī)制

OpenAI的RFT方法在少量數(shù)據(jù)的情況下，能夠掌握醫(yī)療診斷和科學(xué)決策過程。該方法本質(zhì)上結(jié)合了鏈?zhǔn)酵评恚–hain of Thought,CoT）和強(qiáng)化學(xué)習(xí)（RL），通過生成多樣的推理路徑進(jìn)行評分，并繼續(xù)進(jìn)行RL微調(diào)。關(guān)鍵在于如何定義狀態(tài)轉(zhuǎn)變（state-transition）以及如何在token級別和完整響應(yīng)級別之間找到平衡。

技術(shù)的局限性

盡管RFT展示了顯著的潛力，但在罕見病診斷等簡單決策樹任務(wù)上表現(xiàn)優(yōu)異，并不代表其在更復(fù)雜科學(xué)問題上的有效性。真正的科學(xué)問題往往沒有固定選項(xiàng)，定義行動(dòng)和問題的方式也更具挑戰(zhàn)性。此外，科學(xué)數(shù)據(jù)通常含有噪音，不如簡單的多選題清晰。

潛在風(fēng)險(xiǎn)與未來展望

在OpenAI發(fā)布RFT的同時(shí)，啟動(dòng)了一個(gè)強(qiáng)化微調(diào)研究項(xiàng)目，邀請全球科研人員提交決策數(shù)據(jù)集。這引發(fā)了關(guān)于AI安全性和可控性的討論。科學(xué)研究集中在少數(shù)非開源公司手中，可能導(dǎo)致技術(shù)濫用和倫理風(fēng)險(xiǎn)。未來，如何確保AI技術(shù)的安全、可控和可追蹤，將是亟待解決的挑戰(zhàn)。

聯(lián)系作者

文章來源：智猩猩GenAI
作者微信：
作者簡介：智猩猩旗下公眾號之一，深入關(guān)注大模型與AI智能體，及時(shí)搜羅生成式AI技術(shù)產(chǎn)品。

閱讀原文

# AIGC動(dòng)態(tài)# RLScience # 人工智能 # 強(qiáng)化學(xué)習(xí)# 微調(diào)# 行業(yè)應(yīng)用

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

人工智能的崛起：新神降臨還是滅霸的末日審判？

發(fā)布了新的Reinforcement Finetuning方法~

OpenAI發(fā)布新的強(qiáng)化微調(diào)方法

強(qiáng)化微調(diào)的技術(shù)背景

RFT的核心機(jī)制

技術(shù)的局限性

潛在風(fēng)險(xiǎn)與未來展望

聯(lián)系作者

內(nèi)容驅(qū)動(dòng)與智能對話的未來：一場平臺(tái)與Chatbot的激烈碰撞

Sora橫空出世，OpenAI系統(tǒng)瞬間崩潰！Altman緊急叫停新用戶注冊！

相關(guān)文章

暫無評論

ChatGPT

畢業(yè)論文生成器

AIGC熱點(diǎn)