<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        陳丹琦團隊降本又來了:數據砍掉三分之一,性能卻完全不減

        AIGC動態6個月前發布 量子位
        272 0 0

        首次用元數據加速預訓練

        陳丹琦團隊降本大法又來了:數據砍掉三分之一,性能卻完全不減

        原標題:陳丹琦團隊降本又來了:數據砍掉三分之一,性能卻完全不減
        文章來源:量子位
        內容字數:3463字

        陳丹琦團隊新研究:元數據加速大模型預訓練,數據量減少三分之一性能不減

        普林斯頓大學陳丹琦團隊提出了一種名為MeCo(Metadata Conditioning then Cooldown)的新型大模型預訓練方法,通過引入元數據,在減少訓練數據量的同時,提升了模型性能。該方法在不同模型規模(600M-8B)和數據源上均取得了顯著效果,平均性能與使用240B標記的基線相當,而數據量卻減少了33%。

        1. MeCo方法的核心:元數據調節與冷卻

        MeCo方法包含兩個階段:預訓練階段和冷卻階段。在預訓練階段(占90%),將元數據(例如文檔URL的絕對域名)與文檔拼接進行訓練。研究人員只計算文檔標記的交叉熵損失,忽略元數據標記的損失,因為實驗表明這有助于提升下游性能。冷卻階段(占10%)使用標準數據進行訓練,并繼承預訓練階段的學習率和優化器狀態。此階段的關鍵改進包括:禁用跨文檔Attention以加速訓練并提升性能;確保每個序列從一個新文檔開始,避免數據浪費并提升性能。

        2. 實驗結果與貢獻

        實驗使用了Llama Transformer架構和Llama-3 tokenizer,在四種不同模型規模(600M、1.6B、3B和8B)上進行了測試。結果表明,MeCo顯著優于標準預訓練方法,在減少33%數據量的情況下,達到了相同的平均下游性能。該團隊總結了MeCo的三大貢獻:

        1. 顯著加速預訓練:MeCo使1.6B模型在少用33%訓練數據的情況下,達到與標準預訓練模型相同的平均下游性能,并在不同模型規模和數據源下都展現出一致的優勢。
        2. 開啟語言模型訓練新方法:MeCo能夠根據元數據引導模型學習,例如使用特定網站的URL可以提升特定任務的性能,例如常識性問題解答或降低毒性生成。
        3. MeCo設計選擇的消解和兼容性:研究證明MeCo與不同類型的元數據兼容,元數據的主要作用是按來源對文檔進行分類。

        3. 團隊成員及背景

        該論文的主要作者來自普林斯頓大學自然語言處理小組,包括博士生高天宇(一作,清華大學本科畢業,清華特獎獲得者)、Alexander Wettig、Luxi He、YiHe Dong、Sadhika Malladi以及教授陳丹琦。團隊成員在自然語言處理和機器學習領域擁有豐富的經驗。

        4. 總結

        MeCo方法通過巧妙地利用元數據,有效地提高了大模型預訓練的效率,并降低了訓練成本。這項研究為大模型的訓練和應用提供了新的思路,具有重要的學術意義和應用價值。


        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲AV无码成人网站久久精品大 | 免费少妇a级毛片人成网| 亚洲黄片毛片在线观看| 日日摸日日碰夜夜爽亚洲| 国产亚洲精品成人a v小说| 国产精品久久永久免费| 成年免费a级毛片| 欧洲 亚洲 国产图片综合| 中文亚洲AV片不卡在线观看| 日韩av无码成人无码免费| 久久aa毛片免费播放嗯啊| 欧洲乱码伦视频免费国产| 亚洲熟妇丰满xxxxx| 亚洲神级电影国语版| 久久久久亚洲av无码专区喷水| 精品亚洲一区二区三区在线播放| 日本一道本高清免费| 成人奭片免费观看| 99精品国产免费久久久久久下载| 久久成人a毛片免费观看网站| 花蝴蝶免费视频在线观看高清版 | 亚洲级αV无码毛片久久精品| 久久久久亚洲AV综合波多野结衣 | 一本岛v免费不卡一二三区| 亚洲AV无码一区二区三区久久精品| 亚洲综合精品第一页| 国产亚洲男人的天堂在线观看| 亚洲精品国产精品乱码不卡√| 免费毛片在线看不用播放器| 亚洲精品白色在线发布| 亚洲日韩av无码| 久久国产亚洲高清观看| 亚洲一级免费视频| 羞羞网站免费观看| 久久久久久噜噜精品免费直播| 成人网站免费大全日韩国产| 亚洲成a人片在线不卡一二三区| 在线亚洲精品自拍| 在线观看无码AV网站永久免费| 特黄特色的大片观看免费视频| 亚洲成AV人综合在线观看|