Scaling Laws終結(jié),量化無用,AI大佬都在審視這篇論文
AIGC動態(tài)歡迎閱讀
原標(biāo)題:Scaling Laws終結(jié),量化無用,AI大佬都在審視這篇論文
關(guān)鍵字:精度,模型,權(quán)重,數(shù)據(jù),定律
文章來源:機器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機器之心報道
作者:澤南、小舟研究表明,你訓(xùn)練的 token 越多,你需要的精度就越高。最近幾天,AI 社區(qū)都在討論同一篇論文。
UCSD 助理教授 Dan Fu 說它指明了大模型量化的方向。CMU 教授 Tim Dettmers 則直接說:它是很長一段時間以來最重要的一篇論文。OpenAI 創(chuàng)始成員、特斯拉前 AI 高級總監(jiān) Andrej Karpathy 也轉(zhuǎn)發(fā)了他的帖子。Tim Dettmers 表示,可以說,人工智能的大部分進(jìn)步都來自計算能力的提升,而(在最近)這主要依賴于低精度路線的加速(32- > 16 – > 8 位)。現(xiàn)在看來,這一趨勢即將結(jié)束。再加上摩爾定律的物理限制,大模型的大規(guī)模擴展可以說要到頭了。
例如,英偉達(dá)最新的 AI 計算卡 Blackwell 將擁有出色的 8 位能力,并在硬件層面實現(xiàn)逐塊量化。這將使 8 位訓(xùn)練變得像從 FP16 切換到 BF16 一樣簡單。然而,正如我們從新論文中看到的那樣,對于很多大模型的訓(xùn)練來說,8 位是不夠的。
與其他模型相比,Llama 405B 沒有得到太多應(yīng)用的主要原因是它體量太大了,運行 405B 模型進(jìn)行推理非常麻煩。
原文鏈接:Scaling Laws終結(jié),量化無用,AI大佬都在審視這篇論文
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介: