規(guī)模小、效率高:DeepMind推出多模態(tài)解決方案Mirasol 3B
AIGC動態(tài)歡迎閱讀
原標(biāo)題:規(guī)模小、效率高:DeepMind推出多模態(tài)解決方案Mirasol 3B
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):3607字
內(nèi)容摘要:機(jī)器之心報道機(jī)器之心編輯部性能優(yōu)于規(guī)模更大的模型。多模態(tài)學(xué)習(xí)面臨的主要挑戰(zhàn)之一是需要融合文本、音頻、視頻等異構(gòu)的模態(tài),多模態(tài)模型需要組合不同來源的信號。然而,這些模態(tài)具有不同的特征,很難通過單一模型來組合。例如,視頻和文本具有不同的采樣率。最近,來自 Google DeepMind 的研究團(tuán)隊將多模態(tài)模型解耦成多個的、專門的自回歸模型,根據(jù)各種模態(tài)的特征來處理輸入。具體來說,該研究提出了多模態(tài)模型 Mirasol3B。Mirasol3B 由時間同步模態(tài)(音頻和視頻)自回歸組件,以及用于上下文模態(tài)的自回歸組件組成。這些模態(tài)不一定在時間上對齊,但是按順序排列的。論文地址:https://arxiv.org/abs/2311.05698Mirasol3B 在多模態(tài)基準(zhǔn)測試中達(dá)到了 SOTA 水平,優(yōu)于規(guī)模更大的模型。通過學(xué)習(xí)更緊湊的表征,控制音頻 – 視頻特征表征的序列長度,并根據(jù)時間對應(yīng)關(guān)…
原文鏈接:點此閱讀原文:規(guī)模小、效率高:DeepMind推出多模態(tài)解決方案Mirasol 3B
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺