AIGC動態歡迎閱讀
原標題:華為諾亞頻域LLM「帝江」:僅需1/50訓練成本,7B模型媲美LLaMA,推理加速5倍
關鍵字:模型,侵權,論文,注意力,復雜度
文章來源:算法邦
內容字數:6495字
內容摘要:
4月18-19日,由智猩猩與智東西共同主辦的2024中國生成式AI大會將在北京JW萬豪酒店舉行。大會完整議程出爐,55位嘉賓出席!免費票申請通道即將關閉,大會通票(499元標準票)余票有限。掃碼搶票~文章轉載自公眾號:機器之心,本文只做學術/技術分享,如有侵權,聯系刪文。
“又西三百五十里曰天山,多金玉,有青雄黃,英水出焉,而西南流注于湯谷。有神鳥,其狀如黃囊,赤如丹火,六足四翼,渾敦無面目,是識歌舞,實惟帝江也。”——《山海經》
基于 Transformer 架構的大語言模型在 NLP 領域取得了令人驚艷的效果,然而,Transformer 中自注意力帶來的二次復雜度使得大模型的推理成本和內存占用十分巨大,特別是在長序列的場景中。此前,研究者們提出了線性 Transformer、Mamba、RetNet 等。這些方案可以大幅降低 Transformer 計算成本,并且取得媲美原有模型的精度,但是由于架構更換,模型重訓練帶來的巨大成本令人望而卻步。
為了解決這一問題,最近的一篇論文提出了一種基于頻域的大語言模型架構 —帝江(源于山海經的一種神話生物,以跑得快而聞名),同時解決了現有大模
原文鏈接:華為諾亞頻域LLM「帝江」:僅需1/50訓練成本,7B模型媲美LLaMA,推理加速5倍
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,連接AI新青年,講解研究成果,分享系統思考。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...