ICML 2024 | 大語言模型預訓練新前沿：「最佳適配打包」重塑文檔處理標準

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：ICML 2024 | 大語言模型預訓練新前沿：「最佳適配打包」重塑文檔處理標準
關鍵字：模型,報告,序列,上下文,知識
文章來源：機器之心
內容字數：8286字

內容摘要：

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯系報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com在大型語言模型的訓練過程中，數據的處理方式至關重要。
傳統的方法通常通過將大量文檔拼接并切分成等同于模型的上下文長度的訓練序列。這雖然提高了訓練效率，但也常導致文檔的不必要截斷，損害數據完整性，導致關鍵的上下文信息丟失，進而影響模型學習到的內容的邏輯連貫性和事實一致性，并使模型更容易產生幻覺。
AWS AI Labs 的研究人員針對這一常見的拼接-分塊文本處理方式進行了深入研究，發現其嚴重影響了模型理解上下文連貫性和事實一致性的能力。這不僅影響了模型在下游任務的表現，還增加了產生幻覺的風險。
針對這一問題，他們提出了一種創新的文檔處理策略——最佳適配打包（Best-fit Packing），通過優化文檔組合來消除不必要的文本截斷，并顯著地提升了模型的性能且

原文鏈接：ICML 2024 | 大語言模型預訓練新前沿：「最佳適配打包」重塑文檔處理標準