Llama 4訓(xùn)練已開啟!Meta科學(xué)家最新采訪,揭秘Llama 3.1是如何煉成的
AIGC動態(tài)歡迎閱讀
原標(biāo)題:Llama 4訓(xùn)練已開啟!Meta科學(xué)家最新采訪,揭秘Llama 3.1是如何煉成的
關(guān)鍵字:模型,基準(zhǔn),數(shù)據(jù),論文,架構(gòu)
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:喬楊
【新智元導(dǎo)讀】最近,Latent Space發(fā)布的播客節(jié)目中請來了Meta的AI科學(xué)家Thomas Scialom。他在節(jié)目中揭秘了Llama 3.1的一些研發(fā)思路,并透露了后續(xù)Llama 4的更新方向。剛剛發(fā)布的開源「巨無霸」Llama 3.1雖然自帶論文,但依舊激起了廣大網(wǎng)友強(qiáng)烈的好奇心和求知欲。
Llama 3.1都使用了哪些數(shù)據(jù)?其中有多少合成數(shù)據(jù)?為什么不使用MoE架構(gòu)?
后訓(xùn)練與RLHF流程是如何進(jìn)行的?模型評估是如何進(jìn)行的?
我們什么時(shí)候可以見到Llama 4?Meta是否會發(fā)展agent?
恰逢Llama 3.1剛剛發(fā)布,Meta科學(xué)家就現(xiàn)身播客節(jié)目Latent Space,秉持著開源分享的精神,對以上問題都作出了清晰的回答。
受訪者Thomas Scialom現(xiàn)任Meta的人工智能研究科學(xué)家,領(lǐng)導(dǎo)了Llama 2和Llama 3的后訓(xùn)練,并參加了CodeLlama、Toolformer、Bloom、GAIA等多個(gè)項(xiàng)目。
以下是采訪內(nèi)容的節(jié)選。
Llama 3.1研發(fā)思路如何決定參數(shù)規(guī)模其實(shí)LLM的參數(shù)規(guī)模的選擇需要考慮多種因素,包括scalin
原文鏈接:Llama 4訓(xùn)練已開啟!Meta科學(xué)家最新采訪,揭秘Llama 3.1是如何煉成的
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介: