蘋果卷開源大模型,公開代碼、權(quán)重、數(shù)據(jù)集、訓(xùn)練全過程,OpenELM亮相
AIGC動態(tài)歡迎閱讀
原標(biāo)題:蘋果卷開源大模型,公開代碼、權(quán)重、數(shù)據(jù)集、訓(xùn)練全過程,OpenELM亮相
關(guān)鍵字:參數(shù),蘋果,研究者,模型,準(zhǔn)確率
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):5794字
內(nèi)容摘要:
機(jī)器之心報道
編輯:陳萍、大盤雞蘋果發(fā)布基于開源訓(xùn)練和推理框架的高效語言模型族 OpenELM。要說 ChatGPT 拉開了大模型競賽的序幕,那么 Meta 開源 Llama 系列模型則掀起了開源領(lǐng)域的熱潮。在這當(dāng)中,蘋果似乎掀起的水花不是很大。
不過,蘋果最新放出的論文,我們看到其在開源領(lǐng)域做出的貢獻(xiàn)。
近日,蘋果發(fā)布了 OpenELM,共四種變體(參數(shù)量分別為 270M、450M、1.1B 和 3B),這是一系列基于公開數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練和微調(diào)的模型。OpenELM 的核心在于逐層縮放,即 OpenELM 中的每個 Transformer 層都有不同的配置(例如,頭數(shù)和前饋網(wǎng)絡(luò)維度),導(dǎo)致模型每層的參數(shù)數(shù)量不同,從而實(shí)現(xiàn)了更有效的跨層參數(shù)分配。
值得一提的是,蘋果這次發(fā)布了完整的框架,包括數(shù)據(jù)準(zhǔn)備、訓(xùn)練、微調(diào)和評估程序,以及多個預(yù)訓(xùn)練的 checkpoint 和訓(xùn)練日志,以促進(jìn)開源研究。論文地址:https://arxiv.org/pdf/2404.14619.pdf
項目地址:https://github.com/apple/corenet
論文標(biāo)題:OpenELM: An Eff
原文鏈接:蘋果卷開源大模型,公開代碼、權(quán)重、數(shù)據(jù)集、訓(xùn)練全過程,OpenELM亮相
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺