人工智能的崛起:新神降臨還是滅霸的末日審判?
發(fā)布了新的Reinforcement Finetuning方法~
原標(biāo)題:OpenAI的強(qiáng)化微調(diào):RL+Science 創(chuàng)造新神還是滅霸
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):3287字
OpenAI發(fā)布新的強(qiáng)化微調(diào)方法
2024年12月6日,加州時(shí)間上午11點(diǎn),OpenAI推出了一種新的強(qiáng)化微調(diào)方法(Reinforcement Finetuning,RFT),旨在構(gòu)造專家模型,特別適用于醫(yī)療診斷和罕見病診斷等特定領(lǐng)域的決策問題。該方法允許用戶上傳幾十到幾千條訓(xùn)練案例,通過微調(diào)實(shí)現(xiàn)高效決策。
強(qiáng)化微調(diào)的技術(shù)背景
此次發(fā)布的RFT方法基于廣泛應(yīng)用于對齊(alignment)、數(shù)學(xué)和編碼領(lǐng)域的技術(shù),前身為人類反饋的強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback,RLHF)。RLHF通過用戶選擇偏好來訓(xùn)練獎(jiǎng)勵(lì)模型(reward model),并利用強(qiáng)化學(xué)習(xí)算法(如PPO和DPO)對模型進(jìn)行微調(diào),從而使模型生成更符合人類偏好的內(nèi)容。
RFT的核心機(jī)制
OpenAI的RFT方法在少量數(shù)據(jù)的情況下,能夠掌握醫(yī)療診斷和科學(xué)決策過程。該方法本質(zhì)上結(jié)合了鏈?zhǔn)酵评恚–hain of Thought,CoT)和強(qiáng)化學(xué)習(xí)(RL),通過生成多樣的推理路徑進(jìn)行評分,并繼續(xù)進(jìn)行RL微調(diào)。關(guān)鍵在于如何定義狀態(tài)轉(zhuǎn)變(state-transition)以及如何在token級別和完整響應(yīng)級別之間找到平衡。
技術(shù)的局限性
盡管RFT展示了顯著的潛力,但在罕見病診斷等簡單決策樹任務(wù)上表現(xiàn)優(yōu)異,并不代表其在更復(fù)雜科學(xué)問題上的有效性。真正的科學(xué)問題往往沒有固定選項(xiàng),定義行動(dòng)和問題的方式也更具挑戰(zhàn)性。此外,科學(xué)數(shù)據(jù)通常含有噪音,不如簡單的多選題清晰。
潛在風(fēng)險(xiǎn)與未來展望
在OpenAI發(fā)布RFT的同時(shí),啟動(dòng)了一個(gè)強(qiáng)化微調(diào)研究項(xiàng)目,邀請全球科研人員提交決策數(shù)據(jù)集。這引發(fā)了關(guān)于AI安全性和可控性的討論。科學(xué)研究集中在少數(shù)非開源公司手中,可能導(dǎo)致技術(shù)濫用和倫理風(fēng)險(xiǎn)。未來,如何確保AI技術(shù)的安全、可控和可追蹤,將是亟待解決的挑戰(zhàn)。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關(guān)注大模型與AI智能體,及時(shí)搜羅生成式AI技術(shù)產(chǎn)品。