規(guī)模小、效率高:DeepMind推出多模態(tài)解決方案Mirasol 3B

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:規(guī)模小、效率高:DeepMind推出多模態(tài)解決方案Mirasol 3B
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):3607字
內(nèi)容摘要:機(jī)器之心報(bào)道機(jī)器之心編輯部性能優(yōu)于規(guī)模更大的模型。多模態(tài)學(xué)習(xí)面臨的主要挑戰(zhàn)之一是需要融合文本、音頻、視頻等異構(gòu)的模態(tài),多模態(tài)模型需要組合不同來(lái)源的信號(hào)。然而,這些模態(tài)具有不同的特征,很難通過(guò)單一模型來(lái)組合。例如,視頻和文本具有不同的采樣率。最近,來(lái)自 Google DeepMind 的研究團(tuán)隊(duì)將多模態(tài)模型解耦成多個(gè)的、專(zhuān)門(mén)的自回歸模型,根據(jù)各種模態(tài)的特征來(lái)處理輸入。具體來(lái)說(shuō),該研究提出了多模態(tài)模型 Mirasol3B。Mirasol3B 由時(shí)間同步模態(tài)(音頻和視頻)自回歸組件,以及用于上下文模態(tài)的自回歸組件組成。這些模態(tài)不一定在時(shí)間上對(duì)齊,但是按順序排列的。論文地址:https://arxiv.org/abs/2311.05698Mirasol3B 在多模態(tài)基準(zhǔn)測(cè)試中達(dá)到了 SOTA 水平,優(yōu)于規(guī)模更大的模型。通過(guò)學(xué)習(xí)更緊湊的表征,控制音頻 – 視頻特征表征的序列長(zhǎng)度,并根據(jù)時(shí)間對(duì)應(yīng)關(guān)…
原文鏈接:點(diǎn)此閱讀原文:規(guī)模小、效率高:DeepMind推出多模態(tài)解決方案Mirasol 3B
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)