如果科學這顆寶石都集中在同一個非開源公司,那么我們造出的是新神,還是帶上無限手套的滅霸?
原標題:OpenAI的強化微調:RL+Science 創造新神還是滅霸?
文章來源:機器之心
內容字數:3897字
OpenAI 發布新的強化微調方法
2024年12月6日,加州時間上午11點,OpenAI推出了一種新的強化微調(Reinforcement Finetuning,RFT)方法,旨在構造專家模型。該方法可以通過上傳幾十到幾千條訓練案例,快速學習特定領域的決策問題,如醫療診斷和罕見病診斷。
技術背景與原理
RFT方法的核心在于利用強化學習與人類反饋(RLHF)技術,這一技術已經在對齊大模型與人類偏好方面得到了廣泛應用。訓練數據通常以(問題,回答1,回答2,偏好)的形式呈現,用戶通過選擇更喜歡的回答來訓練獎勵模型(reward model)。然后,使用強化學習算法(如PPO、DPO)對模型進行微調,進而生成更符合用戶偏好的內容。
應用與挑戰
OpenAI的RFT方法在特定專家場景中展現出強大的能力。該方法本質上是結合了鏈式思維(CoT)與強化學習,通過生成多樣化的推理路徑并進行評分,從而不斷迭代提升模型的決策能力。然而,如何定義思維過程中的狀態轉移(state transition)和尋找合適的狀態表示仍然是技術難點。
局限性與科學問題
盡管RFT在一些簡單的決策樹問題中表現良好,如罕見病的診斷,但面對真正復雜的科學問題時,仍然存在許多挑戰。科學問題往往缺乏固定選項和標準答案,如何定義行動和問題的提問方式是更為復雜的科學難題。
風險與未來展望
OpenAI同時發布了強化微調研究項目,邀請全球科研人員提供領域數據集以測試RFT的決策能力。這引發了對AI安全性的擔憂,尤其是當科學技術集中在非開源公司手中時,可能會帶來控制風險。未來,如何確保AI技術的安全性、可控性與可追蹤性,將是科學界面臨的重要課題。
作者王夢迪,普林斯頓大學電子與計算機工程系教授,專注于強化學習、可控大模型及AI for Science等領域,曾在多個知名機構擔任訪問學者,獲得多項榮譽。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺