<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Meta開源首個量化模型Llama 3.2:減少40%內存,效率提升2倍以上

        AIGC動態6個月前發布 智猩猩GenAI
        417 0 0

        Meta開源首個量化模型Llama 3.2:減少40%內存,效率提升2倍以上

        AIGC動態歡迎閱讀

        原標題:Meta開源首個量化模型Llama 3.2:減少40%內存,效率提升2倍以上
        關鍵字:侵權,模型,適配器,數據,權重
        文章來源:智猩猩GenAI
        內容字數:0字

        內容摘要:


        文章轉載自公眾號:AIGC開放社區,本文只做學術/技術分享,如有侵權,聯系刪文。
        全球社交巨頭Meta開源了首個輕量級量化版模型Llama 3.2,一共有10億和30億兩種參數。
        為了使該模型能在手機、平板、筆記本等移動設備上部署使用,Meta使用了帶有LoRA適配器的量化感知訓練和SpinQuant進行了大幅度性能優化,平均減少了41%的內存使用、減少56%的模型規模,但推理效率卻提升了2—4倍。
        例如,在一加12手機上,Llama 3.2的解碼延遲平均提高了2.5倍,預填充延遲平均提高了4.2倍,而在三星的S24+、S22兩款手機同樣獲得了類似的數據。開源地址:https://huggingface.co/collections/meta-llama/llama-32-66f448ffc8c32f949b04c8cf
        在架構方面,Llama 3.2 1B和3B采用了標準的Transformer結構。但對所有變壓器塊中的線性層進行了特定的量化處理,采用4位組方式量化權重,并對激活進行8位每標記動態量化。
        分類層則量化為8位每通道的權重和8位每標記的動態激活量化,同時使用了8位每通道量


        原文鏈接:Meta開源首個量化模型Llama 3.2:減少40%內存,效率提升2倍以上

        聯系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 大妹子影视剧在线观看全集免费| 1000部国产成人免费视频| 亚洲产国偷V产偷V自拍色戒| 91精品国产免费久久国语蜜臀| 亚洲国产成人无码AV在线| 久久精品国产亚洲Aⅴ香蕉| 在线永久看片免费的视频| 看免费毛片天天看| 4444亚洲国产成人精品| 免费国产美女爽到喷出水来视频| 久久久久国色av免费看| 亚洲av无码专区国产不乱码| 亚洲AV永久纯肉无码精品动漫 | 国产免费MV大全视频网站| 亚洲美女视频网站| 亚洲成av人在片观看| 精品久久8x国产免费观看| 永久免费无码日韩视频| 亚洲sss综合天堂久久久| 在线a亚洲v天堂网2019无码| 成人免费无码大片A毛片抽搐色欲| 男女拍拍拍免费视频网站| 亚洲日韩中文字幕一区| 久久99国产亚洲精品观看| 亚洲国产精品一区二区第四页 | 亚洲国产精品一区二区第一页免 | 中文字幕亚洲综合久久综合| 亚洲精品夜夜夜妓女网| 国产成人啪精品视频免费网| 18国产精品白浆在线观看免费| 中出五十路免费视频| 小说区亚洲自拍另类| 国产成人精品日本亚洲专一区| 亚洲午夜久久久精品影院| 在线观看亚洲天天一三视| 国产美女被遭强高潮免费网站| 免费精品国产日韩热久久| 久久午夜夜伦鲁鲁片免费无码| 一级毛片免费观看不收费| 国产成人久久精品亚洲小说| 亚洲精品第一综合99久久|