FBI-LLM低比特基礎(chǔ)大語言模型來了，首個完全從頭訓(xùn)練的二值化語言模型

AIGC動態(tài)1年前 (2024)發(fā)布機器之心

AIGC動態(tài)歡迎閱讀

原標(biāo)題：FBI-LLM低比特基礎(chǔ)大語言模型來了，首個完全從頭訓(xùn)練的二值化語言模型
關(guān)鍵字：模型,參數(shù),損失,精度,規(guī)模
文章來源：機器之心
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

AIxiv專欄是機器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年，機器之心AIxiv專欄接收報道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級實驗室，有效促進了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com作者介紹：論文一作Liqun Ma目前是MBZUAI機器學(xué)習(xí)系的博士生，導(dǎo)師為Zhiqiang Shen助理教授，同時也是該論文的最后作者，其在加入MBZUAI之前為CMU博士后，研究領(lǐng)域主要為機器學(xué)習(xí)，基礎(chǔ)大模型等等。Liqun的主要研究方向為高效的大模型預(yù)訓(xùn)練和微調(diào)，他本科畢業(yè)于天津大學(xué)。論文二作Mingjie Sun目前為CMU計算機系在讀博士，導(dǎo)師為Zico Kolter教授。
自回歸訓(xùn)練方式已經(jīng)成為了大語言模型（LLMs）訓(xùn)練的標(biāo)準(zhǔn)模式，今天介紹一篇來自阿聯(lián)酋世界第一所人工智能大學(xué)MBZUAI的VILA實驗室和CMU計算機系合作的論文，題為《FBI-LLM: Scaling Up Fully Binarized LLMs from Scratch

原文鏈接：FBI-LLM低比特基礎(chǔ)大語言模型來了，首個完全從頭訓(xùn)練的二值化語言模型