小模型越級挑戰(zhàn)14倍參數(shù)大模型,谷歌開啟Test-Time端新的Scaling Law
AIGC動態(tài)歡迎閱讀
原標(biāo)題:小模型越級挑戰(zhàn)14倍參數(shù)大模型,谷歌開啟Test-Time端新的Scaling Law
關(guān)鍵字:模型,測試,方法,草莓,策略
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
西風(fēng) 發(fā)自 凹非寺量子位 | 公眾號 QbitAI不必增加模型參數(shù),計算資源相同,小模型性能超過比它大14倍的模型!
谷歌DeepMind最新研究引發(fā)熱議,甚至有人表示這可能就是OpenAI即將發(fā)布的新模型草莓所用的方法。
研究團(tuán)隊探究了在大模型推理時進(jìn)行計算優(yōu)化的方法,根據(jù)給定的prompt難度,動態(tài)地分配測試時(Test-Time)的計算資源。
結(jié)果發(fā)現(xiàn)這種方法在一些情況下比單純擴(kuò)展模型參數(shù)更經(jīng)濟(jì)有效。
換句話說,在預(yù)訓(xùn)練階段花費(fèi)更少的計算資源,而在推理階段花費(fèi)更多,這種策略可能更好。
推理時用額外計算來改進(jìn)輸出這項研究的核心問題是——
在一定計算預(yù)算內(nèi)解決prompt問題,不同的計算策略對于不同問題的有效性有顯著差異。我們應(yīng)如何評估并選擇最適合當(dāng)前問題的測試時計算策略?這種策略與僅僅使用一個更大的預(yù)訓(xùn)練模型相比,效果如何?
DeepMind研究團(tuán)隊探究了兩種主要機(jī)制來擴(kuò)展測試時的計算。
一種是針對基于過程的密集驗證器獎勵模型(PRM)進(jìn)行搜索。
PRM可以在模型生成答案過程中的每個步驟都提供評分,用于引導(dǎo)搜索算法,動態(tài)調(diào)整搜索策略,通過在生成過程中識別錯誤或低效的路徑,幫助避免在
原文鏈接:小模型越級挑戰(zhàn)14倍參數(shù)大模型,谷歌開啟Test-Time端新的Scaling Law
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介: