OpenAI推出強(qiáng)化微調(diào)技術(shù)：為特定行業(yè)需求打造更精準(zhǔn)的 AI 模型

OpenAI 推出了強(qiáng)化微調(diào)（Reinforcement Fine-Tuning， RFT），一種新型模型定制技術(shù)，能夠幫助企業(yè)構(gòu)建高專業(yè)性的 AI 模型，應(yīng)對(duì)復(fù)雜、領(lǐng)域?qū)俚娜蝿?wù)。借助 RFT，用戶可以將 AI 訓(xùn)練成具備法律、醫(yī)療、金融和工程等領(lǐng)域?qū)＜彝评砟芰Φ闹?，并使?OpenAI 自家前沿模型所采用的技術(shù)加以實(shí)現(xiàn)。亮點(diǎn)速覽：RFT 通過強(qiáng)化學(xué)習(xí)，僅需少量示例（約十幾個(gè)）就能訓(xùn)練出專家級(jí)模型，優(yōu)化推理能力。OpenAI 的 Alpha 項(xiàng)目已開啟，計(jì)劃在 2025 年初正式面向公眾推出。法律、醫(yī)療和工程領(lǐng)域的測(cè)試表明 RFT 成功賦能 AI 執(zhí)行復(fù)雜且專業(yè)的任務(wù)。不同于傳統(tǒng)監(jiān)督微調(diào)（SFT），RFT 專注于教 AI 學(xué)會(huì)推理與解決問題，而非簡(jiǎn)單地模仿輸入數(shù)據(jù)。在直播中，伯克利實(shí)驗(yàn)室的計(jì)算生物學(xué)家 Justin Reese 演示了 RFT 如何提升罕見疾病基因診斷的準(zhǔn)確性。他表示：“識(shí)別罕見疾病是一項(xiàng)挑戰(zhàn)，需要結(jié)合醫(yī)學(xué)專業(yè)知識(shí)與系統(tǒng)化的數(shù)據(jù)推理能力。”技術(shù)價(jià)值：強(qiáng)化微調(diào)讓 AI 定制進(jìn)入了全新階段，企業(yè)可以為特定行業(yè)需求打造更精準(zhǔn)的 AI 模型。與傳統(tǒng)微調(diào)方式不同，RFT 突出提升模型推理能力，而非簡(jiǎn)單復(fù)制訓(xùn)練數(shù)據(jù)中的模式。這一技術(shù)有望改變企業(yè)在法律、科研、金融等需要高度專業(yè)性的領(lǐng)域內(nèi)對(duì) AI 的應(yīng)用方式。如何實(shí)現(xiàn)：RFT 借助強(qiáng)化學(xué)習(xí)，通過“評(píng)估器（graders）”對(duì)模型輸出進(jìn)行評(píng)分，指導(dǎo)模型優(yōu)化推理能力。這一過程能夠幫助模型掌握復(fù)雜問題的處理方法，應(yīng)對(duì)需要高精準(zhǔn)度的任務(wù)場(chǎng)景。演示表明，微調(diào)版 GPT-4 mini 在某些任務(wù)中的表現(xiàn)已超越基礎(chǔ) GPT-4。例如，微調(diào)后的模型在首次嘗試中正確識(shí)別基因的準(zhǔn)確率達(dá) 31%，顯著高于基礎(chǔ)模型的 25%。潛在受益者：RFT 的技術(shù)特性使其非常適合精準(zhǔn)性要求極高的行業(yè)，如法律分析、科學(xué)研究和金融預(yù)測(cè)。OpenAI 與 Thomson Reuters 的合作已開發(fā)出法律領(lǐng)域 AI 工具，展現(xiàn)了其在專業(yè)領(lǐng)域中變革工作流程的潛力。未來(lái)展望：OpenAI 啟動(dòng)的 Alpha 計(jì)劃現(xiàn)正招募企業(yè)、大學(xué)和研究機(jī)構(gòu)參與，申請(qǐng)者將率先體驗(yàn) RFT API，并為工具的進(jìn)一步改進(jìn)提供建議。這一技術(shù)預(yù)計(jì)在 2025 年初正式推出。強(qiáng)化微調(diào)有望將定制化 AI 的門檻大幅降低，幫助更多組織打造面向特定挑戰(zhàn)的解決方案。憑借少量數(shù)據(jù)即可實(shí)現(xiàn)專業(yè)化的能力，RFT 有可能成為未來(lái)行業(yè)創(chuàng)新的重要推動(dòng)力。? AI范兒要進(jìn)“交流群”，請(qǐng)關(guān)注公眾號(hào)獲取進(jìn)群方式投稿、需求合作或報(bào)道請(qǐng)?zhí)砑庸娞?hào)獲取聯(lián)系方式往期推薦OpenAI 推出全功能版o1 并首次推出ChatGPT Pro，每月200 美元點(diǎn)這里?關(guān)注我，記得標(biāo)星哦～點(diǎn)個(gè)在看你最好看

閱讀原文