標簽:高效
今日arXiv最熱大模型論文:13位作者,200篇文獻,騰訊最新綜述高效多模態大模型:性能要強,規模要小
夕小瑤科技說 原創作者 | 謝年年在過去一年里,多模態大語言模型(MLLMs)在視覺問答、視覺理解和推理等任務中展現了卓越性能。OpenAI的GPT-4V和Google的Gemi...
高效訓練超越LoRA,北航發布MoRA
夕小瑤科技說 原創作者 | Richard什么!LoRA我都沒有學懂,又出現了MoRA??? LoRA作為當下最火熱的大語言模型參數高效微調技術,正在以前所未有的速度迭代...
MoE 高效訓練的 A/B 面:與魔鬼做交易,用「顯存」換「性能」
在高效訓練與高顯存占用之間橫跳的 MoE,更像是一門妥協的藝術。作者|房曉楠 編輯|陳彩嫻 MoE 會成為未來大模型訓練的新方向嗎? 這是人們發現 MoE 架構可...
圖靈獎得主Bengio等人新作:注意力可被視為RNN,新模型媲美Transformer,但超級省內存
來源:機器之心 機器之心編輯部既能像 Transformer 一樣并行訓練,推理時內存需求又不隨 token 數線性遞增,長上下文又有新思路了?序列建模的進展具有極大的...
熱帖:大語言模型自薦能夠替代的20種人類工作!快來看你是否需要轉行!
夕小瑤科技說 原創作者 | 付奶茶最近推特上有一個例子引起了廣泛的討論,事情的起因是這樣的:網友讓 GPT-4o 預測一下自己未來將會替代人類哪些工作? 這聽起...
Bengio等人新作:注意力可被視為RNN,新模型媲美Transformer,但超級省內存
機器之心報道 機器之心編輯部既能像 Transformer 一樣并行訓練,推理時內存需求又不隨 token 數線性遞增,長上下文又有新思路了?序列建模的進展具有極大的影...
爆打多模態王者 GPT-4V、Gemini Pro!這個小小端側模型殺瘋了!
夕小瑤科技說 分享多模態王者 GPT-4V、Gemini Pro ,竟然被一個端側模型打爆了!而且這個模型還憑強勁實力拿下了全球最強端側多模態模型王座! 有圖有真相。...
國產「小鋼炮」一夜干翻巨無霸GPT-4V、Gemini Pro!穩坐端側多模態鐵王座
新智元報道編輯:桃子 好困 【新智元導讀】殺瘋了!一夜之間,全球最強端側多模態模型再次刷新,僅用8B參數,擊敗了多模態巨無霸Gemini Pro、GPT-4V。而且,...
國產版Sora到來!視頻大模型更上一層樓 | 大模型一周大事
大模型的快節奏發展,讓了解最新技術動態、積極主動學習成為每一位從業者的必修課。InfoQ 研究中心期望通過每周更新大模型行業最新動態,為廣大讀者提供全面...
比Llama 3 推理更強的開源大模型出現了! Leetcode擊敗80%人類
夕小瑤科技說 分享Llama3 最近實在太火了! 它的性能匹敵 Gemini 1.5 Pro,接近GPT-4,贏得了“最強開源大模型”的稱號。 國內外開源社區都為之感到振奮,果然...
讓大模型不再「巨無霸」,這是一份最新的大模型參數高效微調綜述
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
僅需Llama3 1/17的訓練成本,Snowflake開源128x3B MoE模型
機器之心報道 編輯:小舟、崔亞鸝Snowflake 加入 LLM 混戰。Snowflake 發布高「企業智能」模型 Arctic,專注于企業內部應用。 剛剛,數據管理和倉庫提供商 Sn...
Mamba架構第一次做大!混合Transformer,打敗Transformer
豐色 發自 凹非寺量子位 | 公眾號 QbitAI精彩精彩,第一個把爆火Mamba架構真正擴展到足夠大的工作來了。 520億參數,還是Mamba+Transformer混合架構。 它的名...
博士/訪問學生/學者申請|新加坡管理大學(SMU)周攀助理教授:機器學習、計算機視覺、優化算法方向
新智元報道編輯:LRS 【新智元導讀】周攀助理教授招收學生和學者,研究方向包括神經網絡結構設計、學習框架 (自監督學習、生成學習以及元語境學習)、網絡參...
DeepMind CEO:LLM+樹搜索就是AGI技術線路,AI科研依賴工程能力,閉源模型就是比開源安全
新智元報道編輯:潤 【新智元導讀】最近谷歌DeepMind的CEO Hassabis接受了多個播客主播的專訪,向大眾透露很多谷歌最近發布模型的內幕,以及他理解的如何通向...