標簽:參數
今日arXiv最熱大模型論文:大模型都能怎么用?中南大學最新綜述:大模型時代的自然語言處理
夕小瑤科技說 原創作者 | Axe_越還記得2022年末ChatGPT的橫空出世,帶來了整個NLP乃至AI領域的震動,隨后如LLaMA、ChatGLM、Qwen等類ChatGPT大模型(LLM)開...
單個4090可推理,2000億稀疏大模型「天工MoE」開源
機器之心發布 機器之心編輯部在大模型浪潮中,訓練和部署最先進的密集 LLM 在計算需求和相關成本上帶來了巨大挑戰,尤其是在數百億或數千億參數的規模上。為...
昆侖萬維開源 2 千億稀疏大模型天工 MoE,全球首創能用 4090 推理
2024年6月3日,昆侖萬維宣布開源 2 千億稀疏大模型 Skywork-MoE , 性能強勁, 同時推理成本更低。Skywork-MoE 基于之前昆侖萬維開源的 Skywork-13B 模型中間...
不同數據集有不同的Scaling law?而你可用一個壓縮算法來預測它
機器之心報道 機器之心編輯部一般而言,訓練神經網絡耗費的計算量越大,其性能就越好。在擴大計算規模時,必須要做個決定:是增多模型參數量還是提升數據集大...
高效訓練超越LoRA,北航發布MoRA
夕小瑤科技說 原創作者 | Richard什么!LoRA我都沒有學懂,又出現了MoRA??? LoRA作為當下最火熱的大語言模型參數高效微調技術,正在以前所未有的速度迭代...
最強開源編程大模型一夜易主:精通80+語言,僅22B
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI開源代碼大模型的王座,再次易主! 來自素有“歐洲OpenAI”之稱的Mistral,用22B參數量表現超越了70B的Code Llama。 ...
MoE 高效訓練的 A/B 面:與魔鬼做交易,用「顯存」換「性能」
在高效訓練與高顯存占用之間橫跳的 MoE,更像是一門妥協的藝術。作者|房曉楠 編輯|陳彩嫻 MoE 會成為未來大模型訓練的新方向嗎? 這是人們發現 MoE 架構可...
ICML 2024 | 脫離LoRA架構,訓練參數大幅減少,新型傅立葉微調來了
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
只需單卡RTX 3090,低比特量化訓練就能實現LLaMA-3 8B全參微調
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
今日arXiv最熱大模型論文:LoRA又有新用途,學得少忘得也少,成持續學習關鍵!
夕小瑤科技說 原創作者 | Axe_越自大模型(LLM)誕生以來,苦于其高成本高消耗的訓練模式,學界和業界也在努力探索更為高效的參數微調方法。其中Low-Rank Ada...
替代MLP的KAN,被開源項目擴展到卷積了
機器之心報道 機器之心編輯部本月初,來自 MIT 等機構的研究者提出了一種非常有潛力的 MLP 替代方法 ——KAN。 KAN 在準確性和可解釋性方面表現優于 MLP,而且...
騰訊混元文生圖大模型開源:Sora 同架構,更懂中文
又一家大模型開源了,這次是騰訊。 5 月 14 日,騰訊旗下的混元文生圖大模型宣布對外開源,目前已在 Hugging Face 平臺及 Github 上發布,包含模型權重、推理...
第一批用 LangChain 的程序員,已經碾壓同事了…… | 極客時間
今年招聘市場確實是好點了,我發現群友都在討論,得趕快學點 AI 大模型。 他們有的是想正式轉到一些新興的 AI 行業,需要系統的學習訓練。更多的是想跟已有的...
Mixtral-8x7B MoE大模型微調實踐,超越Llama2-65B
直播預告 | 5月14日晚7點,「智猩猩AI新青年講座」第235講正式開講,慕尼黑工業大學視覺實驗室陳振宇博士將直播講解《三維室內場景紋理圖生成》歡迎掃碼報名~...
微軟要放棄OpenAI了?他幾個月就開發出了超越GPT-4的產品!
點擊上方藍字關注我們MAI-1的規模將遠遠超過微軟以前訓練的任何開源模型,參數量大約為5000億。作為對比,Meta公司最大的Llama 3模型擁有超過4000億參數,據...
粵公網安備 44011502001135號