AIGC動態歡迎閱讀
原標題:Llama2-7B升級為Pro版本!騰訊提出「塊擴展」訓練法,效果全面提升
關鍵字:模型,騰訊,方法,領域,初始化
文章來源:夕小瑤科技說
內容字數:4491字
內容摘要:
夕小瑤科技說 原創作者 | 付奶茶、python大語言模型在編程、數學、生物醫學和金融等專業領域性能不佳,通過特定領域后訓練可在降低資源消耗的同時提升性能。但是,后訓練可能導致災難性遺忘,從而削弱模型原有的通用處理能力,限制了其在多元任務上的應用。
騰訊最近發表的一篇研究論文介紹了一種通過復制Transformer塊并用特定領域的數據對新塊進行微調來擴展原始LLM的方法,生成LLaMA Pro-8.3B,初始化自LLaMA2-7B。這種方法使得模型在保持其通用能力的同時,能夠有效融合新的知識。
論文標題:
LLAMA PRO: Progressive LLaMA with Block Expansion
論文鏈接:
https://arxiv.org/pdf/2401.02415.pdf
github代碼:
https://github.com/TencentARC/LLaMA-Pro
塊擴展方法本文提出了一種稱為“塊擴展”的簡潔而有效的后訓練方法。該方法通過復制現有預訓練大語言模型(LLM)中的Transformer塊來增強模型的能力。新添加的塊中的線性層被初始化為零,以實現恒等映射
原文鏈接:Llama2-7B升級為Pro版本!騰訊提出「塊擴展」訓練法,效果全面提升
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業洞見。聚集25萬AI應用開發者、算法工程師和研究人員。一線作者均來自清北、國外頂級AI實驗室和互聯網大廠,兼備媒體sense與技術深度。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...