智源研究院王仲遠：Emu3證明Scaling Law在多模態大模型上依然成立｜甲子光年

AIGC動態1年前 (2024)發布甲子光年

AIGC動態歡迎閱讀

原標題：智源研究院王仲遠：Emu3證明Scaling Law在多模態大模型上依然成立｜甲子光年
關鍵字：模型,快手,語言,路線,世界
文章來源：甲子光年
內容字數：0字

內容摘要：

Next-Token Prediction is All You Need。作者｜王藝
編輯｜栗子
通往AGI的道路千萬條，多模態大模型是極其重要的一條。
無論是Sora的發布引起的關于“世界模型”的討論，還是Midjourney、Adobe Firefly、快手可靈、Runway Gen-3、Vidu等模型的爆火，抑或是作為具身智能機器人“大腦”出現，能感知多維環境信息、提升機器人適應性和創造力的VLM（Vision-Language-Model）……顯然，多模態大模型的浪潮已不可阻擋。
據Gartner預測，建立在多模態大模型上的生成式AI應用，將從2023年的1%，激增至2027年的40%，未來的市場充滿了想象空間。
然而，當今市面上絕大多數的多模態模型，要么采用Sora的Diffusion Transformer（DiT）架構，要么采用大語言模型+CLIP的訓練方式。
盡管都能實現多模態的感知和生成，但是各個模態之間本質上是仍然是的，仍然需要各種顯性或者隱性的pipeline進行連接。這種“各模態分開訓練”的方式不僅模型復雜度高、訓練數據需求量大，數據融合難度大，而且無法真

原文鏈接：智源研究院王仲遠：Emu3證明Scaling Law在多模態大模型上依然成立｜甲子光年