標簽:專家
138 億美元的 Scale AI:解決正確的問題,做「技術(shù)含量最低」的生意
Scale AI 的創(chuàng)始人 8 年前意識到,所有干 AI 的都認為數(shù)據(jù)至關(guān)重要,但沒多少人把數(shù)據(jù)當成主業(yè)。 他從 MIT 輟學,創(chuàng)業(yè)做數(shù)據(jù)標注。 2016 年,Alex Wang 成立 ...
華為GTS LocMoE+:高可擴展性親和度 MoE 架構(gòu),低開銷實現(xiàn)主動路由
AIxiv專欄是機器之心發(fā)布學術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學術(shù)...
MoE也有Scaling Law,「百萬專家」利用率近100%!DeepMind華人挑戰(zhàn)MoE極限
新智元報道編輯:編輯部 【新智元導讀】MoE已然成為AI界的主流架構(gòu),不論是開源Grok,還是閉源GPT-4,皆是其擁躉。然而,這些模型的專家,最大數(shù)量僅有32個。...
生成式模型不只會「模仿」!哈佛、UCSB等最新成果:性能可超越訓練集專家水平
新智元報道編輯:LRS 【新智元導讀】生成式模型原本被設計來模仿人類的各種復雜行為,但人們普遍認為它們最多只能達到與其訓練數(shù)據(jù)中的專家相當?shù)乃健2贿^...
單一作者論文,谷歌提出百萬專家Mixture,超越密集前饋、稀疏MoE
機器之心報道 編輯:澤南、杜偉釋放進一步擴展 Transformer 的潛力,同時還可以保持計算效率。標準 Transformer 架構(gòu)中的前饋(FFW)層會隨著隱藏層寬度的增...
從零實現(xiàn)一個MOE(專家混合模型)
7月11日19點,「智猩猩自動駕駛新青年講座」第36講將開講,主講理想汽車最新成果:基于MLLM的閉環(huán)規(guī)劃智能體PlanAgent,由理想汽車實習研究員、中國科學院自...
理財AI勇闖「無人區(qū)」:理解專家、成為專家
機器之心原創(chuàng) 作者:吳昕這是一條少有人走過的路。用十年時間成為全球在線服務數(shù)億用戶的財富管理平臺后,擺在螞蟻財富面前的是一段少有人走過的路: 這 5 億...
揭秘:階躍星辰萬億MoE+多模態(tài)大模型矩陣亮相
機器之心原創(chuàng) 作者:張倩在 2024 年世界人工智能大會的現(xiàn)場,很多人在一個展臺前排隊,只為讓 AI 大模型給自己在天庭「安排」一個差事。具體流程是這樣的:首...
32專家MoE大模型免費商用!性能全面對標Llama3,單token推理消耗僅5.28%
克雷西 發(fā)自 凹非寺量子位 | 公眾號 QbitAI每個token只需要5.28%的算力,精度就能全面對標Llama 3。 開源大模型,再添一位重量級選手—— 來自浪潮信息的32專家...
馬斯克燒60億美元難題,國內(nèi)大廠有解?開源MoE模算效率黑馬登場,3.7B參數(shù)單挑Llama 3-70B
新智元報道編輯:編輯部 【新智元導讀】馬斯克最近哭窮表示,xAI需要部署10萬個H100才能訓出Grok 3,影響全球的大模型算力荒怎么解?昨天開源的這款MoE大模型...
性能對標Llama 3,算力消耗僅1/19!源2.0-M32大幅提升模算效率
模更強,算更優(yōu)!集成32個專家、模算效率大幅提升,浪潮信息讓大模型應用火力全開。 作者|程茜 編輯|漠影 智東西5月28日報道,今天,浪潮信息發(fā)布基于MoE的源...
150B token從頭訓練,普林斯頓Meta發(fā)布完全可微MoE架構(gòu)Lory
新智元報道編輯:喬楊 好困 【新智元導讀】前幾天,普林斯頓大學聯(lián)合Meta在arXiv上發(fā)表了他們最新的研究成果——Lory模型,論文提出構(gòu)建完全可微的MoE模型,是...
AI史上的第一個成功的商業(yè)產(chǎn)品是怎樣誕生的?
大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自知識分子 圖源:pixabay 撰文丨張?zhí)烊?024年初,自然雜志公布了2024年重要的七項科技,其中一項是“蛋白質(zhì)序列的深度學習模型”。這起源于...
微軟讓MoE長出多個頭,大幅提升專家激活率
機器之心報道 編輯:Panda WMH-MoE 能優(yōu)化幾乎所有專家,實現(xiàn)起來非常簡單。混合專家(MoE)是個好方法,支持著現(xiàn)在一些非常優(yōu)秀的大模型,比如谷歌家的 Gemi...
Mixtral-8x7B MoE大模型微調(diào)實踐,超越Llama2-65B
直播預告 | 5月14日晚7點,「智猩猩AI新青年講座」第235講正式開講,慕尼黑工業(yè)大學視覺實驗室陳振宇博士將直播講解《三維室內(nèi)場景紋理圖生成》歡迎掃碼報名~...