AIGC動態歡迎閱讀
原標題:37項SOTA!全模態預訓練范式MiCo:理解任何模態并學習通用表示|港中文&中科院
關鍵字:上下文,團隊,數據,模型,音頻
文章來源:量子位
內容字數:0字
內容摘要:
MiCo團隊 投稿量子位 | 公眾號 QbitAIGPT-4o掀起一股全模態(Omni-modal)熱潮,去年的熱詞多模態仿佛已經不夠看了。
要構建全模態智能,意味著能夠理解任何模態并學習通用表示 (Universal Representations)。
現在,港中文、中科院等提出了一種大規模的全模態預訓練范式,稱為多模態上下文MiCo(Multimodal Context),它可以在預訓練過程中引入更多的模態,數據量,模型參數。
借助 MiCo,團隊預訓練的模型在多模態學習中表現出極為令人印象深刻的性能,在目前主流的三大類任務上的評估結果顯示出:
10種不同模態的單模態感知基準。
25種跨模態理解任務,包括檢索、問答、描述。
18種多模態大型語言模型基準,MiCo取得了37項最強性能的記錄。
大規模全模態預訓練在AI的發展歷程中, 大規模的預訓練已經逐漸成為一種非常有前景的途徑來實現通用智能(譬如大規模訓練的GPT-4o, LLaMA, Stable Diffusion)。
其中圖文對比學習是社區最有影響力的預訓練方法之一,比如,CLIP構建起了數百萬的圖文數據對來實現跨模態的對比學
原文鏈接:37項SOTA!全模態預訓練范式MiCo:理解任何模態并學習通用表示|港中文&中科院
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...