AIGC動態歡迎閱讀
原標題:智源研究院王仲遠:Emu3證明Scaling Law在多模態大模型上依然成立|甲子光年
關鍵字:模型,快手,語言,路線,世界
文章來源:甲子光年
內容字數:0字
內容摘要:
Next-Token Prediction is All You Need。作者|王藝
編輯|栗子
通往AGI的道路千萬條,多模態大模型是極其重要的一條。
無論是Sora的發布引起的關于“世界模型”的討論,還是Midjourney、Adobe Firefly、快手可靈、Runway Gen-3、Vidu等模型的爆火,抑或是作為具身智能機器人“大腦”出現,能感知多維環境信息、提升機器人適應性和創造力的VLM(Vision-Language-Model)……顯然,多模態大模型的浪潮已不可阻擋。
據Gartner預測,建立在多模態大模型上的生成式AI應用,將從2023年的1%,激增至2027年的40%,未來的市場充滿了想象空間。
然而,當今市面上絕大多數的多模態模型,要么采用Sora的Diffusion Transformer(DiT)架構,要么采用大語言模型+CLIP的訓練方式。
盡管都能實現多模態的感知和生成,但是各個模態之間本質上是仍然是的,仍然需要各種顯性或者隱性的pipeline進行連接。這種“各模態分開訓練”的方式不僅模型復雜度高、訓練數據需求量大,數據融合難度大,而且無法真
原文鏈接:智源研究院王仲遠:Emu3證明Scaling Law在多模態大模型上依然成立|甲子光年
聯系作者
文章來源:甲子光年
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...