<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        OpenELM

        AI工具10個月前發(fā)布 AI工具集
        475 0 0

        OpenELM是Apple最新發(fā)布的一系列高效開源語言模型,涵蓋了不同參數(shù)規(guī)模的版本,包括OpenELM-270M、OpenELM-450M、OpenELM-1_1B和OpenELM-3B。該系列模型采用創(chuàng)新的層間縮放策略,實(shí)現(xiàn)了參數(shù)的非均勻分配,從而提升了模型的準(zhǔn)確性與效率。OpenELM在多個自然語言處理任務(wù)中表現(xiàn)出色,并且其代碼和預(yù)訓(xùn)練模型權(quán)重均已開放,旨在推動開放研究和社區(qū)的發(fā)展。

        OpenELM是什么

        OpenELM是Apple公司最新推出的高效開源語言模型系列,包含OpenELM-270M、OpenELM-450M、OpenELM-1_1B和OpenELM-3B等多個版本,提供預(yù)訓(xùn)練和指令微調(diào)兩種選擇。該模型運(yùn)用層間縮放策略,在Transformer架構(gòu)的每一層中實(shí)現(xiàn)參數(shù)的非均勻分配,以增強(qiáng)模型的準(zhǔn)確度和效率。OpenELM在公共數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練,并在多個自然語言處理任務(wù)中展現(xiàn)出卓越的性能。其代碼、預(yù)訓(xùn)練模型權(quán)重及訓(xùn)練和評估流程均已開放,旨在促進(jìn)開放研究與社區(qū)的進(jìn)一步發(fā)展。

        OpenELM

        OpenELM的基本信息

        • 參數(shù)規(guī)模:OpenELM系列共包含八個模型,其中四個為預(yù)訓(xùn)練版本,四個為指令微調(diào)版本,參數(shù)規(guī)模從2.7億到30億不等(270M、450M、1.1B和3B)。
        • 技術(shù)架構(gòu):OpenELM基于Transformer架構(gòu),采用層間縮放策略,通過調(diào)整注意力頭數(shù)和前饋網(wǎng)絡(luò)的乘數(shù),實(shí)現(xiàn)參數(shù)的非均勻分配。該模型使用分組查詢注意力(Grouped Query Attention,GQA)替代傳統(tǒng)的多頭注意力(Multi-Head Attention,MHA),并選用SwiGLU激活函數(shù)代替?zhèn)鹘y(tǒng)的ReLU,同時采用RMSNorm作為歸一化層。
        • 預(yù)訓(xùn)練數(shù)據(jù):OpenELM使用多個公共數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,包括RefinedWeb、去重的PILE、RedPajama的子集以及Dolma v1.6的子集,總計(jì)約1.8萬億個token。
        • 開源許可:OpenELM的代碼、預(yù)訓(xùn)練模型權(quán)重和訓(xùn)練指南均在開放源代碼許可證下發(fā)布,Apple還提供了將模型轉(zhuǎn)換為MLX庫的代碼,以支持在Apple設(shè)備上的推理和微調(diào)。

        OpenELM的官網(wǎng)入口

        OpenELM

        OpenELM的技術(shù)架構(gòu)

        • Transformer架構(gòu):OpenELM采用僅解碼器的Transformer模型架構(gòu),廣泛應(yīng)用于自然語言處理,特別適合序列數(shù)據(jù)的處理。
        • 層間縮放(Layer-wise Scaling):通過層間縮放技術(shù),OpenELM有效分配每一層的參數(shù),早期層使用較小的注意力和前饋網(wǎng)絡(luò)維度,而后期層則逐漸增大這些維度。
        • 分組查詢注意力(Grouped Query Attention,GQA):GQA是一種改進(jìn)的注意力機(jī)制,取代了傳統(tǒng)的多頭注意力,旨在提升模型處理長距離依賴的能力。
        • RMSNorm歸一化:OpenELM采用RMSNorm作為歸一化層,幫助穩(wěn)定訓(xùn)練過程。
        • SwiGLU激活函數(shù):在前饋網(wǎng)絡(luò)中,OpenELM使用SwiGLU激活函數(shù),一種門控激活函數(shù),有助于捕捉復(fù)雜模式。
        • RoPE位置編碼:OpenELM使用旋轉(zhuǎn)位置編碼(Rotary Positional Embedding,RoPE),有效處理序列中元素的順序信息。
        • Flash注意力:在計(jì)算縮放點(diǎn)積注意力時,OpenELM采用Flash注意力,提供快速且內(nèi)存高效的注意力計(jì)算。

        OpenELM的性能表現(xiàn)

        研究人員將OpenELM與PyThia、Cerebras-GPT、TinyLlama、OpenLM、MobiLlama和OLMo等模型進(jìn)行了比較。在相似的模型規(guī)模下,OpenELM在ARC、BoolQ、HellaSwag、PIQA、SciQ和WinoGrande等主流任務(wù)測試中展現(xiàn)出更高的準(zhǔn)確性。特別是,相較于OLMo模型,OpenELM在參數(shù)數(shù)量和預(yù)訓(xùn)練數(shù)據(jù)更少的情況下,依然保持較高的準(zhǔn)確率。

        OpenELM

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲三级高清免费| 高潮毛片无遮挡高清免费视频| 亚洲一区爱区精品无码| 极品色天使在线婷婷天堂亚洲 | 亚洲精品国产电影午夜| 亚洲中文字幕久久精品无码2021| 亚洲人成网男女大片在线播放| 精品无码无人网站免费视频| 日韩精品视频免费在线观看| 超清首页国产亚洲丝袜| 国产裸体美女永久免费无遮挡| 亚洲成人免费电影| 亚洲人成人77777网站不卡| 国产精品免费看久久久香蕉 | 蜜臀亚洲AV无码精品国产午夜.| 在线观看人成视频免费| 久久亚洲高清观看| 亚洲欧洲免费无码| 久久久国产精品福利免费| 日本高清免费网站| 深夜a级毛片免费无码| 亚洲愉拍99热成人精品热久久| APP在线免费观看视频| 亚洲国产精品人人做人人爽| 国产成人精品日本亚洲18图| 国内外成人免费视频| 老司机午夜精品视频在线观看免费| 久久影院亚洲一区| 在线观看免费av网站| 亚洲大码熟女在线观看| 亚洲成A人片在线观看中文 | 亚洲第一街区偷拍街拍| 亚洲色偷偷狠狠综合网| 99视频免费播放| 亚洲a∨国产av综合av下载 | 免费无码午夜福利片69| 亚洲尹人九九大色香蕉网站 | 亚洲人成小说网站色| 亚洲国产高清精品线久久| 午夜免费福利小电影| 亚洲а∨精品天堂在线|