非Transformer架構(gòu)新模型爆火,從第一性原理出發(fā),MIT CSAIL衍生團隊打造
AIGC動態(tài)歡迎閱讀
原標題:非Transformer架構(gòu)新模型爆火,從第一性原理出發(fā),MIT CSAIL衍生團隊打造
關(guān)鍵字:模型,人工智能,架構(gòu),團隊,神經(jīng)網(wǎng)絡
文章來源:量子位
內(nèi)容字數(shù):0字
內(nèi)容摘要:
西風 發(fā)自 凹非寺量子位 | 公眾號 QbitAI挑戰(zhàn)Transformer,MIT初創(chuàng)團隊推出LFM(Liquid Foundation Model)新架構(gòu)模型爆火。
LFM 1.3B、LFM 3B兩個不同大小的模型,性能超越同等規(guī)模Llama3.2等Transformer模型。
LFM架構(gòu)還有很好的可擴展性,團隊還推出了基于MoE的LFM 40B(激活12B參數(shù)),能與更大規(guī)模的密集模型或MoE模型相媲美。
LFM用的是一種液態(tài)神經(jīng)網(wǎng)絡(LNN),從第一性原理出發(fā)而構(gòu)建,其計算單元植根于動態(tài)系統(tǒng)理論、信號處理和數(shù)值線性代數(shù)。
這種架構(gòu)還有一個特點:在內(nèi)存效率方面特別強。
基于Transformer的LLM中的KV緩存在長上下文中會急劇增長,而LFM即使在處理100萬個token時也能保持內(nèi)存最小。
小巧便攜,使得它能夠直接部署在手機上進行文檔和書籍等分析。
LFM模型背后是一支MIT計算科學與人工智能實驗室衍生出來的小團隊,名叫Liquid AI。
其后訓練負責人Maxime Labonne在X上為自家模型瘋狂打Call:
這三個具有SOTA性能的模型,是我職業(yè)生涯中最值得驕傲的版
原文鏈接:非Transformer架構(gòu)新模型爆火,從第一性原理出發(fā),MIT CSAIL衍生團隊打造
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介: