原標題:405B大模型也能線性化!斯坦福MIT最新研究,0.2%訓練量讓線性注意力提分20+
文章來源:新智元
內容字數:5537字
新智元:低秩線性轉換方法的推出與應用
近期,斯坦福大學、麻省理工學院等機構的研究人員推出了一種名為LoLCATs(Low-rank Linear Conversion with Attention Transfer)的低秩線性轉換方法。這一方法能夠將傳統的注意力機制無縫轉移到線性注意力,僅需0.2%的參數更新即可恢復模型精度。研究團隊成功地在兩天內對405B的大模型進行了訓練,展現了線性注意力的強大潛力。
1. 線性化的必要性
傳統的softmax注意力計算復雜度隨序列長度的平方增長,導致對長序列處理的困難。線性化的目標是將計算復雜度降低為線性關系,從而緩解長序列帶來的壓力。
2. LoLCATs的實現步驟
LoLCATs的線性化轉換分為兩個主要步驟:首先,使用線性注意力替換原始的softmax注意力,并通過MSE損失訓練新增的參數;其次,通過低秩適配(LoRA)進行微調,以提升模型精度。這種方法不僅高效,還能保持接近原始模型的性能。
3. 逐層優化與并行訓練
為了實現可擴展性,研究人員引入了逐層優化的理念,將大模型分為多個塊進行聯合訓練。通過這種方式,研究團隊成功地將訓練時間縮短,且在處理像Llama 3.1 405B這樣的大模型時,整體訓練效率得到了顯著提高。
4. 實驗結果與模型性能
在多個流行的LLM評估任務中,LoLCATs顯著提升了模型質量和訓練效率。相比于以往的線性化方法,LoLCATs的參數訓練量僅為0.2%,但模型性能差距縮小了80%以上。尤其在Llama 3.1 70B和405B模型上,精度分別提升了39點和38.3分,訓練效率也得到了改善。
結論
LoLCATs的推出標志著線性化技術的進步,開辟了在生產級大模型中應用線性注意力的道路。通過這種高效的轉換方法,研究人員不僅解決了模型訓練成本高的問題,也為未來大規模模型的開發提供了新的思路。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。