Karpathy點(diǎn)贊,這份報(bào)告教你如何用 LLaMa 3創(chuàng)建高質(zhì)量網(wǎng)絡(luò)數(shù)據(jù)集
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Karpathy點(diǎn)贊,這份報(bào)告教你如何用 LLaMa 3創(chuàng)建高質(zhì)量網(wǎng)絡(luò)數(shù)據(jù)集
關(guān)鍵字:數(shù)據(jù),模型,報(bào)告,團(tuán)隊(duì),注釋
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
作者:蛋醬、小舟眾所周知,對(duì)于 Llama3、GPT-4 或 Mixtral 等高性能大語(yǔ)言模型來(lái)說(shuō),構(gòu)建高質(zhì)量的網(wǎng)絡(luò)規(guī)模數(shù)據(jù)集是非常重要的。然而,即使是最先進(jìn)的開(kāi)源 LLM 的預(yù)訓(xùn)練數(shù)據(jù)集也不公開(kāi),人們對(duì)其創(chuàng)建過(guò)程知之甚少。
最近,AI 大牛 Andrej Karpathy 推薦了一項(xiàng)名為 FineWeb-Edu 的工作。這項(xiàng)工作將原始 15 萬(wàn)億個(gè) FineWeb token,經(jīng) Llama 3 70B 評(píng)判,過(guò)濾為 1.3 萬(wàn)億個(gè)高質(zhì)量(教科級(jí))token。
事實(shí)證明,LLM 從教育內(nèi)容中學(xué)習(xí)會(huì)更好更快。部分原因是普通的互聯(lián)網(wǎng)爬取文章的價(jià)值不是很高,并且會(huì)分散訓(xùn)練的注意力,包含太多不相關(guān)的信息。
互聯(lián)網(wǎng)上的網(wǎng)頁(yè)是如此隨機(jī)和糟糕,這些奇怪的數(shù)據(jù)轉(zhuǎn)儲(chǔ)、廣告垃圾郵件、數(shù)兆字節(jié)的股票行情更新等等,里面混雜著「鉆石」(重要內(nèi)容),那么挑戰(zhàn)就是把「鉆石」挑出來(lái)。
預(yù)訓(xùn)練數(shù)據(jù)集對(duì)于微調(diào)可能非常有用,因?yàn)楫?dāng)你將模型微調(diào)到特定領(lǐng)域時(shí),就會(huì)慢慢失去一般能力。模型開(kāi)始慢慢忘記目標(biāo)域之外的事物。并且這不僅限于知識(shí),模型還會(huì)失去原始數(shù)據(jù)所需的一般「思維」技能。也就是說(shuō),除了廣泛的知識(shí)消失之外
原文鏈接:Karpathy點(diǎn)贊,這份報(bào)告教你如何用 LLaMa 3創(chuàng)建高質(zhì)量網(wǎng)絡(luò)數(shù)據(jù)集
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)