耗資1.3萬,ASU團(tuán)隊(duì)揭秘o1推理王者!碾壓所有LLM成本超高,關(guān)鍵還會(huì)PUA
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:耗資1.3萬,ASU團(tuán)隊(duì)揭秘o1推理王者!碾壓所有LLM成本超高,關(guān)鍵還會(huì)PUA
關(guān)鍵字:模型,測(cè)試,實(shí)例,性能,問題
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:桃子 好困
【新智元導(dǎo)讀】LLM不會(huì)規(guī)劃,大推理模型o1可以嗎?ASU團(tuán)隊(duì)最新研究發(fā)現(xiàn),o1-preview推理規(guī)劃能力是所有模型之最,但仍未觸及天花板。關(guān)鍵是,推理強(qiáng),成本超高。LLM依然不會(huì)規(guī)劃,LRM可以嗎?
OpenAI聲稱,草莓o1已經(jīng)突破了自回歸LLM常規(guī)限制,成為一種新型的「大推理模型」(LRM)。
它能夠基于強(qiáng)化學(xué)習(xí),通過CoT多步推理。并且,這種推理過程的代價(jià),是高昂的。
來自ASU研究人員以此為契機(jī),全面評(píng)估了當(dāng)前LLM和新型LRM,在測(cè)試基準(zhǔn)PlanBench上表現(xiàn)。
論文地址:https://arxiv.org/pdf/2409.13373
PlanBench是他們?cè)?2年提出,評(píng)估大模型規(guī)劃能力的測(cè)試基準(zhǔn)。
在最新測(cè)試中,研究人員發(fā)現(xiàn),o1-preview表現(xiàn)出色,大幅領(lǐng)先其他模型,但也未完全通過PlanBench基準(zhǔn)測(cè)試。
其他LLM,在Mystery Blocksworld上的性能都不過5%。在基準(zhǔn)上的結(jié)果曲線,和X軸幾乎融合。
足見,這些大模型的規(guī)劃能力,非常地弱。
不過,作者指出,規(guī)劃推理越長(zhǎng),o1-preview的準(zhǔn)確率便會(huì)低于25
原文鏈接:耗資1.3萬,ASU團(tuán)隊(duì)揭秘o1推理王者!碾壓所有LLM成本超高,關(guān)鍵還會(huì)PUA
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡(jiǎn)介: