小模型狂飆！6家巨頭爭(zhēng)相發(fā)布小模型，Andrej Karpathy：大語言模型的尺寸競(jìng)爭(zhēng)正在倒退…

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布夕小瑤科技說

小模型狂飆！6家巨頭爭(zhēng)相發(fā)布小模型，Andrej Karpathy：大語言模型的尺寸競(jìng)爭(zhēng)正在倒退...

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：小模型狂飆！6家巨頭爭(zhēng)相發(fā)布小模型，Andrej Karpathy：大語言模型的尺寸競(jìng)爭(zhēng)正在倒退…
關(guān)鍵字：模型,數(shù)據(jù),參數(shù),函數(shù),性能
文章來源：夕小瑤科技說
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

夕小瑤科技說原創(chuàng)作者 | 21#過去一周，可謂是小模型戰(zhàn)場(chǎng)最瘋狂的一周，商業(yè)巨頭改變賽道，向大模型say byebye~。
OpenAI、Apple、Mistral等“百花齊放”，紛紛帶著自家性能優(yōu)越的輕量化小模型入場(chǎng)。
小模型(SLM)，是相對(duì)于大語言模型（LLM）而言的，它們一般來說具有較少的參數(shù)和較低的計(jì)算資源需求。
前OpenAI和特斯拉AI研究員Andrej Karpathy更是直言LLM大小競(jìng)爭(zhēng)會(huì)出現(xiàn)逆轉(zhuǎn)的趨勢(shì)，預(yù)測(cè)模型將向著更小更智能的方向發(fā)展。
為了快速理解，中文翻譯如下：
大語言模型的尺寸競(jìng)爭(zhēng)正在倒退…
我打賭我們會(huì)看到非常非常小的模型“思考”得非常好且可靠。很可能存在一個(gè)GPT-2參數(shù)的設(shè)置，大多數(shù)人會(huì)認(rèn)為GPT-2是“聰明的”。當(dāng)前模型如此大的原因是因?yàn)槲覀冊(cè)谟?xùn)練期間仍然非常浪費(fèi)——我們要求它們記住互聯(lián)網(wǎng)，令人驚訝的是，它們確實(shí)做到了，并且可以例如背誦常見數(shù)字的SHA哈希值，或回憶非常深?yuàn)W的事實(shí)。（實(shí)際上，大語言模型在記憶方面非常出色，質(zhì)量上遠(yuǎn)勝于人類，有時(shí)只需要一次更新就能記住大量細(xì)節(jié)，并且長時(shí)間記住）。但想象一下，如果你要在閉卷考試中背誦互聯(lián)網(wǎng)的任意段落

原文鏈接：小模型狂飆！6家巨頭爭(zhēng)相發(fā)布小模型，Andrej Karpathy：大語言模型的尺寸競(jìng)爭(zhēng)正在倒退…