北京大學(xué)發(fā)布LLMs(預(yù)訓(xùn)練+微調(diào))數(shù)據(jù)管理全流程綜述
AIGC動態(tài)歡迎閱讀
原標(biāo)題:北京大學(xué)發(fā)布LLMs(預(yù)訓(xùn)練+微調(diào))數(shù)據(jù)管理全流程綜述
關(guān)鍵字:數(shù)據(jù),指令,模型,任務(wù),質(zhì)量
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):8631字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | 謝年年、python數(shù)據(jù)一直以來都是大語言模型(LLMs)構(gòu)建的基石。LLMs強(qiáng)大的能力在很大程度上依賴于在大量數(shù)據(jù)上的自我監(jiān)督預(yù)訓(xùn)練。并且,通過進(jìn)一步在指令數(shù)據(jù)集上進(jìn)行有監(jiān)督微調(diào),可以進(jìn)一步提高LLMs遵循指令和完成各種各樣下游任務(wù)的能力。然而,現(xiàn)有的許多知名LLMs并沒有詳細(xì)公布或深度總結(jié)其在訓(xùn)練全階段所使用的數(shù)據(jù)情況,以及如何進(jìn)行數(shù)據(jù)去重、過濾等數(shù)據(jù)管理過程。
近日,來自北京大學(xué)的學(xué)者發(fā)布了LLMs訓(xùn)練數(shù)據(jù)管理全流程綜述,分別從預(yù)訓(xùn)練與有監(jiān)督微調(diào)兩個階段詳細(xì)總結(jié)了包括數(shù)據(jù)規(guī)模、數(shù)據(jù)質(zhì)量、領(lǐng)域組成以及數(shù)據(jù)管理系統(tǒng)等方面的研究。
論文標(biāo)題:Data Management For Large Language Models: A Survey
論文鏈接:https://arxiv.org/pdf/2312.01700.pdf
預(yù)訓(xùn)練階段1. 數(shù)據(jù)規(guī)模模型規(guī)模與訓(xùn)練數(shù)據(jù)集規(guī)模之間符合縮放定律,即當(dāng)模型大小和訓(xùn)練計算預(yù)算沒有瓶頸限制時,模型性能與訓(xùn)練數(shù)據(jù)集規(guī)模呈冪律關(guān)系。只要同時擴(kuò)大模型大小和訓(xùn)練數(shù)據(jù)集規(guī)模,模型性能可以提高,但如果其中一個固定而另一個增加,就會
原文鏈接:點此閱讀原文:北京大學(xué)發(fā)布LLMs(預(yù)訓(xùn)練+微調(diào))數(shù)據(jù)管理全流程綜述
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業(yè)洞見。聚集25萬AI應(yīng)用開發(fā)者、算法工程師和研究人員。一線作者均來自清北、國外頂級AI實驗室和互聯(lián)網(wǎng)大廠,兼?zhèn)涿襟wsense與技術(shù)深度。