標簽：高效

今日arXiv最熱大模型論文：13位作者，200篇文獻，騰訊最新綜述高效多模態大模型：性能要強，規模要小

夕小瑤科技說原創作者 | 謝年年在過去一年里，多模態大語言模型（MLLMs）在視覺問答、視覺理解和推理等任務中展現了卓越性能。OpenAI的GPT-4V和Google的Gemi...

閱讀原文

AIGC動態

12個月前

高效訓練超越LoRA，北航發布MoRA

夕小瑤科技說原創作者 | Richard什么！LoRA我都沒有學懂，又出現了MoRA？？？ LoRA作為當下最火熱的大語言模型參數高效微調技術，正在以前所未有的速度迭代...

閱讀原文

AIGC動態

12個月前

MoE 高效訓練的 A/B 面：與魔鬼做交易，用「顯存」換「性能」

在高效訓練與高顯存占用之間橫跳的 MoE，更像是一門妥協的藝術。作者｜房曉楠編輯｜陳彩嫻 MoE 會成為未來大模型訓練的新方向嗎？這是人們發現 MoE 架構可...

閱讀原文

AIGC動態

12個月前

圖靈獎得主Bengio等人新作：注意力可被視為RNN，新模型媲美Transformer，但超級省內存

來源：機器之心機器之心編輯部既能像 Transformer 一樣并行訓練，推理時內存需求又不隨 token 數線性遞增，長上下文又有新思路了？序列建模的進展具有極大的...

閱讀原文

AIGC動態

12個月前

熱帖：大語言模型自薦能夠替代的20種人類工作！快來看你是否需要轉行！

夕小瑤科技說原創作者 | 付奶茶最近推特上有一個例子引起了廣泛的討論，事情的起因是這樣的：網友讓 GPT-4o 預測一下自己未來將會替代人類哪些工作？這聽起...

閱讀原文

AIGC動態

12個月前

Bengio等人新作：注意力可被視為RNN，新模型媲美Transformer，但超級省內存

機器之心報道機器之心編輯部既能像 Transformer 一樣并行訓練，推理時內存需求又不隨 token 數線性遞增，長上下文又有新思路了？序列建模的進展具有極大的影...

閱讀原文

AIGC動態

12個月前

爆打多模態王者 GPT-4V、Gemini Pro！這個小小端側模型殺瘋了！

夕小瑤科技說分享多模態王者 GPT-4V、Gemini Pro ，竟然被一個端側模型打爆了！而且這個模型還憑強勁實力拿下了全球最強端側多模態模型王座！有圖有真相。...

閱讀原文

AIGC動態

12個月前

國產「小鋼炮」一夜干翻巨無霸GPT-4V、Gemini Pro！穩坐端側多模態鐵王座

新智元報道編輯：桃子好困【新智元導讀】殺瘋了！一夜之間，全球最強端側多模態模型再次刷新，僅用8B參數，擊敗了多模態巨無霸Gemini Pro、GPT-4V。而且，...

閱讀原文

AIGC動態

12個月前

國產版Sora到來！視頻大模型更上一層樓 | 大模型一周大事

大模型的快節奏發展，讓了解最新技術動態、積極主動學習成為每一位從業者的必修課。InfoQ 研究中心期望通過每周更新大模型行業最新動態，為廣大讀者提供全面...

閱讀原文

AIGC動態

1年前 (2024)

比Llama 3 推理更強的開源大模型出現了! Leetcode擊敗80%人類

夕小瑤科技說分享Llama3 最近實在太火了！它的性能匹敵 Gemini 1.5 Pro，接近GPT-4，贏得了“最強開源大模型”的稱號。國內外開源社區都為之感到振奮，果然...

閱讀原文

AIGC動態

1年前 (2024)

讓大模型不再「巨無霸」，這是一份最新的大模型參數高效微調綜述

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術...

閱讀原文

AIGC動態

1年前 (2024)

僅需Llama3 1/17的訓練成本，Snowflake開源128x3B MoE模型

機器之心報道編輯：小舟、崔亞鸝Snowflake 加入 LLM 混戰。Snowflake 發布高「企業智能」模型 Arctic，專注于企業內部應用。剛剛，數據管理和倉庫提供商 Sn...

閱讀原文

AIGC動態

1年前 (2024)

Mamba架構第一次做大！混合Transformer，打敗Transformer

豐色發自凹非寺量子位 | 公眾號 QbitAI精彩精彩，第一個把爆火Mamba架構真正擴展到足夠大的工作來了。 520億參數，還是Mamba+Transformer混合架構。它的名...

閱讀原文

AIGC動態

1年前 (2024)

博士/訪問學生/學者申請｜新加坡管理大學（SMU）周攀助理教授：機器學習、計算機視覺、優化算法方向

新智元報道編輯：LRS 【新智元導讀】周攀助理教授招收學生和學者，研究方向包括神經網絡結構設計、學習框架（自監督學習、生成學習以及元語境學習）、網絡參...

閱讀原文

AIGC動態

1年前 (2024)

DeepMind CEO：LLM+樹搜索就是AGI技術線路，AI科研依賴工程能力，閉源模型就是比開源安全

新智元報道編輯：潤【新智元導讀】最近谷歌DeepMind的CEO Hassabis接受了多個播客主播的專訪，向大眾透露很多谷歌最近發布模型的內幕，以及他理解的如何通向...

閱讀原文

AIGC動態

1年前 (2024)

1 2 345 6