AIGC動態歡迎閱讀
原標題:蘋果一次性開源了8個大模型! 包含模型權重、訓練日志和設置,OpenELM全面開源
關鍵字:模型,參數,維度,指令,研究人員
文章來源:夕小瑤科技說
內容字數:6074字
內容摘要:
夕小瑤科技說 原創作者 | 任同學不以開放性著稱的蘋果居然同時開源了大模型的權重、訓練和評估框架,涵蓋訓練日志、多個保存點和預訓練設置。同時升級計算機視覺工具包 CVNets 為 CoreNet!支持 OpenELM!
▲圖1.由Stable Diffusion3生成。OpenELM是Apple蘋果公司最新推出的語言模型系列,這次一共開源了8個模型,包括OpenELM-270M、OpenELM450M、OpenELM-1_1B和OpenELM-3B的預訓練版和指令微調版。
▲圖2.OpenELM 采用了decoder-only的架構,并遵循最新的大語言模型(LLM)的設計,包括:
在任何全連接層中不使用可學習的偏置參數,
使用RMSNorm進行預歸一化,同時使用旋轉位置嵌入(ROPE)來編碼位置信息,
使用分組查詢注意力(GQA)代替多頭注意力(MHA),
將前饋網絡(FFN)替換為SwiGLU FFN,
使用Flash Attention來計算縮放點積注意力,
使用與LLama相同的分詞器。
▲圖3.OpenELM與開源LLM。OpenELM比最近的開放LLM OLMo的性能高出2.
原文鏈接:蘋果一次性開源了8個大模型! 包含模型權重、訓練日志和設置,OpenELM全面開源
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內外機構投資人,互聯網大廠中高管和AI公司創始人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備敏銳的行業嗅覺和洞察深度。商務合作:zym5189