OpenAI推出強(qiáng)化微調(diào)技術(shù):為特定行業(yè)需求打造更精準(zhǔn)的 AI 模型
OpenAI 推出了強(qiáng)化微調(diào)(Reinforcement Fine-Tuning, RFT),一種新型模型定制技術(shù),能夠幫助企業(yè)構(gòu)建高專業(yè)性的 AI 模型,應(yīng)對復(fù)雜、領(lǐng)域?qū)俚娜蝿?wù)。借助 RFT,用戶可以將 AI 訓(xùn)練成具備法律、醫(yī)療、金融和工程等領(lǐng)域?qū)<彝评砟芰Φ闹郑⑹褂?OpenAI 自家前沿模型所采用的技術(shù)加以實(shí)現(xiàn)。亮點(diǎn)速覽:RFT 通過強(qiáng)化學(xué)習(xí),僅需少量示例(約十幾個(gè))就能訓(xùn)練出專家級模型,優(yōu)化推理能力。OpenAI 的 Alpha 項(xiàng)目已開啟,計(jì)劃在 2025 年初正式面向公眾推出。法律、醫(yī)療和工程領(lǐng)域的測試表明 RFT 成功賦能 AI 執(zhí)行復(fù)雜且專業(yè)的任務(wù)。不同于傳統(tǒng)監(jiān)督微調(diào)(SFT),RFT 專注于教 AI 學(xué)會推理與解決問題,而非簡單地模仿輸入數(shù)據(jù)。在直播中,伯克利實(shí)驗(yàn)室的計(jì)算生物學(xué)家 Justin Reese 演示了 RFT 如何提升罕見疾病基因診斷的準(zhǔn)確性。他表示:“識別罕見疾病是一項(xiàng)挑戰(zhàn),需要結(jié)合醫(yī)學(xué)專業(yè)知識與系統(tǒng)化的數(shù)據(jù)推理能力。”技術(shù)價(jià)值:強(qiáng)化微調(diào)讓 AI 定制進(jìn)入了全新階段,企業(yè)可以為特定行業(yè)需求打造更精準(zhǔn)的 AI 模型。與傳統(tǒng)微調(diào)方式不同,RFT 突出提升模型推理能力,而非簡單復(fù)制訓(xùn)練數(shù)據(jù)中的模式。這一技術(shù)有望改變企業(yè)在法律、科研、金融等需要高度專業(yè)性的領(lǐng)域內(nèi)對 AI 的應(yīng)用方式。如何實(shí)現(xiàn):RFT 借助強(qiáng)化學(xué)習(xí),通過“評估器(graders)”對模型輸出進(jìn)行評分,指導(dǎo)模型優(yōu)化推理能力。這一過程能夠幫助模型掌握復(fù)雜問題的處理方法,應(yīng)對需要高精準(zhǔn)度的任務(wù)場景。演示表明,微調(diào)版 GPT-4 mini 在某些任務(wù)中的表現(xiàn)已超越基礎(chǔ) GPT-4。例如,微調(diào)后的模型在首次嘗試中正確識別基因的準(zhǔn)確率達(dá) 31%,顯著高于基礎(chǔ)模型的 25%。潛在受益者:RFT 的技術(shù)特性使其非常適合精準(zhǔn)性要求極高的行業(yè),如法律分析、科學(xué)研究和金融預(yù)測。OpenAI 與 Thomson Reuters 的合作已開發(fā)出法律領(lǐng)域 AI 工具,展現(xiàn)了其在專業(yè)領(lǐng)域中變革工作流程的潛力。未來展望:OpenAI 啟動(dòng)的 Alpha 計(jì)劃現(xiàn)正招募企業(yè)、大學(xué)和研究機(jī)構(gòu)參與,申請者將率先體驗(yàn) RFT API,并為工具的進(jìn)一步改進(jìn)提供建議。這一技術(shù)預(yù)計(jì)在 2025 年初正式推出。強(qiáng)化微調(diào)有望將定制化 AI 的門檻大幅降低,幫助更多組織打造面向特定挑戰(zhàn)的解決方案。憑借少量數(shù)據(jù)即可實(shí)現(xiàn)專業(yè)化的能力,RFT 有可能成為未來行業(yè)創(chuàng)新的重要推動(dòng)力。? AI范兒要進(jìn)“交流群”,請關(guān)注公眾號獲取進(jìn)群方式投稿、需求合作或報(bào)道請?zhí)砑庸娞柅@取聯(lián)系方式往期推薦OpenAI 推出全功能版o1 并首次推出ChatGPT Pro,每月200 美元點(diǎn)這里?關(guān)注我,記得標(biāo)星哦~點(diǎn)個(gè)在看你最好看