中科大聯(lián)合華為諾亞提出Entropy Law,揭秘大模型性能、數(shù)據(jù)壓縮率以及訓(xùn)練損失關(guān)系
AIGC動態(tài)歡迎閱讀
原標(biāo)題:中科大聯(lián)合華為諾亞提出Entropy Law,揭秘大模型性能、數(shù)據(jù)壓縮率以及訓(xùn)練損失關(guān)系
關(guān)鍵字:華為,數(shù)據(jù),模型,壓縮率,樣本
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本工作由中科大認(rèn)知智能全國重點(diǎn)實(shí)驗(yàn)室 IEEE Fellow 陳恩紅團(tuán)隊與華為諾亞方舟實(shí)驗(yàn)室完成。陳恩紅教授團(tuán)隊深耕數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)領(lǐng)域,在頂級期刊與會議上發(fā)表多篇論文,谷歌學(xué)術(shù)論文引用超兩萬次。諾亞方舟實(shí)驗(yàn)室是華為公司從事人工智能基礎(chǔ)研究的實(shí)驗(yàn)室,秉持理論研究與應(yīng)用創(chuàng)新并重的理念,致力于推動人工智能領(lǐng)域的技術(shù)創(chuàng)新和發(fā)展。
數(shù)據(jù)是大語言模型(LLMs)成功的基石,但并非所有數(shù)據(jù)都有益于模型學(xué)習(xí)。直覺上,高質(zhì)量的樣本在教授 LLM 上預(yù)期會有更好的效率。因此,現(xiàn)有方法通常專注于基于質(zhì)量的數(shù)據(jù)選擇。然而,這些方法中的大多數(shù)地評估不同的數(shù)據(jù)樣本,忽略了樣本之間復(fù)雜的組合效應(yīng)。如圖 1 所示,即使每個樣本質(zhì)量完美,由于它們的互信息冗余或不一致性,它們的組合可能仍
原文鏈接:中科大聯(lián)合華為諾亞提出Entropy Law,揭秘大模型性能、數(shù)據(jù)壓縮率以及訓(xùn)練損失關(guān)系
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介: