耗資1.3萬，ASU團(tuán)隊(duì)揭秘o1推理王者！碾壓所有LLM成本超高，關(guān)鍵還會(huì)PUA

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布新智元

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：耗資1.3萬，ASU團(tuán)隊(duì)揭秘o1推理王者！碾壓所有LLM成本超高，關(guān)鍵還會(huì)PUA
關(guān)鍵字：模型,測試,實(shí)例,性能,問題
文章來源：新智元
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

新智元報(bào)道編輯：桃子好困
【新智元導(dǎo)讀】LLM不會(huì)規(guī)劃，大推理模型o1可以嗎？ASU團(tuán)隊(duì)最新研究發(fā)現(xiàn)，o1-preview推理規(guī)劃能力是所有模型之最，但仍未觸及天花板。關(guān)鍵是，推理強(qiáng)，成本超高。LLM依然不會(huì)規(guī)劃，LRM可以嗎？
OpenAI聲稱，草莓o1已經(jīng)突破了自回歸LLM常規(guī)限制，成為一種新型的「大推理模型」（LRM）。
它能夠基于強(qiáng)化學(xué)習(xí)，通過CoT多步推理。并且，這種推理過程的代價(jià)，是高昂的。
來自ASU研究人員以此為契機(jī)，全面評(píng)估了當(dāng)前LLM和新型LRM，在測試基準(zhǔn)PlanBench上表現(xiàn)。
論文地址：https://arxiv.org/pdf/2409.13373
PlanBench是他們?cè)?2年提出，評(píng)估大模型規(guī)劃能力的測試基準(zhǔn)。
在最新測試中，研究人員發(fā)現(xiàn)，o1-preview表現(xiàn)出色，大幅領(lǐng)先其他模型，但也未完全通過PlanBench基準(zhǔn)測試。
其他LLM，在Mystery Blocksworld上的性能都不過5%。在基準(zhǔn)上的結(jié)果曲線，和X軸幾乎融合。
足見，這些大模型的規(guī)劃能力，非常地弱。
不過，作者指出，規(guī)劃推理越長，o1-preview的準(zhǔn)確率便會(huì)低于25

原文鏈接：耗資1.3萬，ASU團(tuán)隊(duì)揭秘o1推理王者！碾壓所有LLM成本超高，關(guān)鍵還會(huì)PUA