人工智能的崛起:超越滅霸的未來(lái)科學(xué)之路
如果科學(xué)這顆寶石都集中在同一個(gè)非開(kāi)源公司,那么我們?cè)斐龅氖切律瘢€是帶上無(wú)限手套的滅霸?

原標(biāo)題:OpenAI的強(qiáng)化微調(diào):RL+Science 創(chuàng)造新神還是滅霸?
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):3897字
OpenAI 發(fā)布新的強(qiáng)化微調(diào)方法
2024年12月6日,加州時(shí)間上午11點(diǎn),OpenAI推出了一種新的強(qiáng)化微調(diào)(Reinforcement Finetuning,RFT)方法,旨在構(gòu)造專(zhuān)家模型。該方法可以通過(guò)上傳幾十到幾千條訓(xùn)練案例,快速學(xué)習(xí)特定領(lǐng)域的決策問(wèn)題,如醫(yī)療診斷和罕見(jiàn)病診斷。
技術(shù)背景與原理
RFT方法的核心在于利用強(qiáng)化學(xué)習(xí)與人類(lèi)反饋(RLHF)技術(shù),這一技術(shù)已經(jīng)在對(duì)齊大模型與人類(lèi)偏好方面得到了廣泛應(yīng)用。訓(xùn)練數(shù)據(jù)通常以(問(wèn)題,回答1,回答2,偏好)的形式呈現(xiàn),用戶(hù)通過(guò)選擇更喜歡的回答來(lái)訓(xùn)練獎(jiǎng)勵(lì)模型(reward model)。然后,使用強(qiáng)化學(xué)習(xí)算法(如PPO、DPO)對(duì)模型進(jìn)行微調(diào),進(jìn)而生成更符合用戶(hù)偏好的內(nèi)容。
應(yīng)用與挑戰(zhàn)
OpenAI的RFT方法在特定專(zhuān)家場(chǎng)景中展現(xiàn)出強(qiáng)大的能力。該方法本質(zhì)上是結(jié)合了鏈?zhǔn)剿季S(CoT)與強(qiáng)化學(xué)習(xí),通過(guò)生成多樣化的推理路徑并進(jìn)行評(píng)分,從而不斷迭代提升模型的決策能力。然而,如何定義思維過(guò)程中的狀態(tài)轉(zhuǎn)移(state transition)和尋找合適的狀態(tài)表示仍然是技術(shù)難點(diǎn)。
局限性與科學(xué)問(wèn)題
盡管RFT在一些簡(jiǎn)單的決策樹(shù)問(wèn)題中表現(xiàn)良好,如罕見(jiàn)病的診斷,但面對(duì)真正復(fù)雜的科學(xué)問(wèn)題時(shí),仍然存在許多挑戰(zhàn)。科學(xué)問(wèn)題往往缺乏固定選項(xiàng)和標(biāo)準(zhǔn)答案,如何定義行動(dòng)和問(wèn)題的提問(wèn)方式是更為復(fù)雜的科學(xué)難題。
風(fēng)險(xiǎn)與未來(lái)展望
OpenAI同時(shí)發(fā)布了強(qiáng)化微調(diào)研究項(xiàng)目,邀請(qǐng)全球科研人員提供領(lǐng)域數(shù)據(jù)集以測(cè)試RFT的決策能力。這引發(fā)了對(duì)AI安全性的擔(dān)憂(yōu),尤其是當(dāng)科學(xué)技術(shù)集中在非開(kāi)源公司手中時(shí),可能會(huì)帶來(lái)控制風(fēng)險(xiǎn)。未來(lái),如何確保AI技術(shù)的安全性、可控性與可追蹤性,將是科學(xué)界面臨的重要課題。
作者王夢(mèng)迪,普林斯頓大學(xué)電子與計(jì)算機(jī)工程系教授,專(zhuān)注于強(qiáng)化學(xué)習(xí)、可控大模型及AI for Science等領(lǐng)域,曾在多個(gè)知名機(jī)構(gòu)擔(dān)任訪(fǎng)問(wèn)學(xué)者,獲得多項(xiàng)榮譽(yù)。
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)