AIGC動態歡迎閱讀
原標題:150B token從頭訓練,普林斯頓Meta發布完全可微MoE架構Lory
關鍵字:模型,解讀,路由,專家,論文
文章來源:新智元
內容字數:4374字
內容摘要:
新智元報道編輯:喬楊 好困
【新智元導讀】前幾天,普林斯頓大合Meta在arXiv上發表了他們最新的研究成果——Lory模型,論文提出構建完全可微的MoE模型,是一種預訓練自回歸語言模型的新方法。不同于大多數模型使用字母縮略起名,論文作者在腳注中解釋道,Lory是一種羽毛有彩虹顏色的鸚鵡,和「軟MoE」的精神非常相似。
論文的作者團隊也可以稱之為「明星陣容」。
論文地址:https://arxiv.org/abs/2405.03133
主要作者之一陳丹琦是普林斯頓大學計算機科學系的助理教授,也是普林斯頓NLP小組共同之一。她本科畢業于清華大學姚班,2018年在斯坦福大學獲得博士學位,導師是大名鼎鼎的Christopher Manning。
斯坦福教授、NLP領域泰斗Dan Jurafsky曾這樣評價她:「她在發現重要的研究問題上很有品位。她已經對該領域產生了非凡的影響,并且她的影響只會越來越大。」
Mike Lewis是Meta AI的一名研究科學家,他領導了Meta剛發布的大語言模型Llama 3的預訓練工作。
他此前曾發表過多項有影響力的研究成果,包括Bart、Robe
原文鏈接:150B token從頭訓練,普林斯頓Meta發布完全可微MoE架構Lory
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...