国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

Meta斯坦福全新多模態(tài)Apollo，60分鐘視頻輕松理解！7B性能超越30B

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布新智元

Meta斯坦福全新多模態(tài)Apollo，60分鐘視頻輕松理解！7B性能超越30B

原標(biāo)題：Meta斯坦福全新多模態(tài)Apollo，60分鐘視頻輕松理解！7B性能超越30B
文章來源：新智元
內(nèi)容字?jǐn)?shù)：7954字

Meta和斯坦福大合發(fā)布Apollo：高效且強(qiáng)大的視頻多模態(tài)大模型

Meta和斯坦福大學(xué)的研究團(tuán)隊(duì)合作，對(duì)視頻多模態(tài)大模型（LMM）進(jìn)行了全面的研究，取得了顯著成果。他們不僅創(chuàng)建了新的評(píng)估基準(zhǔn)ApolloBench，提高了評(píng)估效率，還提出了模型設(shè)計(jì)的“規(guī)模一致性”概念，并開源了高性能的Apollo模型，在多個(gè)基準(zhǔn)測(cè)試中取得了領(lǐng)先結(jié)果。

高效的評(píng)估基準(zhǔn)：ApolloBench
現(xiàn)有的視頻問答基準(zhǔn)存在資源密集和冗余的問題。研究團(tuán)隊(duì)針對(duì)此問題，創(chuàng)建了ApolloBench。該基準(zhǔn)通過篩選問題，確定了五大時(shí)態(tài)感知類別，并手動(dòng)選擇和驗(yàn)證了400個(gè)問題。ApolloBench的評(píng)估速度比現(xiàn)有基準(zhǔn)快41倍，同時(shí)與現(xiàn)有基準(zhǔn)高度相關(guān)，更能體現(xiàn)視頻感知能力。這使得對(duì)視頻LMM的評(píng)估更加高效和有效。
規(guī)模一致性：高效的模型設(shè)計(jì)
研究發(fā)現(xiàn)，中等規(guī)模（約2-4B）模型的設(shè)計(jì)決策與更大模型高度相關(guān)，他們將此現(xiàn)象稱為“規(guī)模一致性”。這意味著在中等規(guī)模模型和數(shù)據(jù)集上進(jìn)行的設(shè)計(jì)決策可以可靠地遷移到更大的模型，這大大減少了模型設(shè)計(jì)和擴(kuò)展研究的成本。
高效模型設(shè)計(jì)的關(guān)鍵因素
研究團(tuán)隊(duì)深入探索了影響LMM設(shè)計(jì)效率的關(guān)鍵因素，包括視頻采樣、視頻表示、視頻token重采樣和視頻token集成。實(shí)驗(yàn)結(jié)果表明：fps采樣優(yōu)于均勻采樣；SigLIP-SO400M是最佳單一視頻編碼器，結(jié)合InternVideo2性能更佳；感知器重采樣在token重采樣中表現(xiàn)最佳；在視頻token之間添加文本或?qū)W習(xí)到的token可以提高token集成效率。
高效的多模態(tài)大模型訓(xùn)練
研究團(tuán)隊(duì)還探索了高效的訓(xùn)練策略，包括訓(xùn)練調(diào)度器和數(shù)據(jù)組合。三階段訓(xùn)練調(diào)度策略效果最佳；在混合數(shù)據(jù)上訓(xùn)練視覺編碼器，并包含10%-14%的文本數(shù)據(jù)，可以有效避免災(zāi)難性遺忘并提升性能；視頻數(shù)據(jù)和圖像數(shù)據(jù)比例應(yīng)略微偏向視頻數(shù)據(jù)。
高性能的Apollo模型
基于以上研究成果，團(tuán)隊(duì)開發(fā)了一系列Apollo模型，其中Apollo-3B超越了幾乎所有7B模型，Apollo-7B則是目前7B模型中性能最佳的。Apollo-7B甚至在某些基準(zhǔn)上與參數(shù)超過30B的模型性能相當(dāng)，甚至超越，這證明了高效的模型設(shè)計(jì)和訓(xùn)練策略的重要性。

總而言之，Meta和斯坦福大學(xué)的研究團(tuán)隊(duì)通過創(chuàng)建ApolloBench、提出規(guī)模一致性概念、探索高效模型設(shè)計(jì)和訓(xùn)練策略，并開源高性能的Apollo模型，為視頻多模態(tài)大模型的研究和發(fā)展做出了重要貢獻(xiàn)。這項(xiàng)工作不僅推動(dòng)了視頻理解領(lǐng)域的發(fā)展，也為其他多模態(tài)大模型的研究提供了寶貴的經(jīng)驗(yàn)和參考。

聯(lián)系作者

文章來源：新智元
作者微信：
作者簡(jiǎn)介：智能+中國(guó)主平臺(tái)，致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展，關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響，領(lǐng)航中國(guó)新智能時(shí)代。

閱讀原文

# AIGC動(dòng)態(tài)# 7B參數(shù)模型超越30B # Apollo 7B # 低參數(shù)大模型 # 參數(shù)效率 # 多模態(tài)大模型性能突破

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無評(píng)論

暫無評(píng)論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

Meta斯坦福全新多模態(tài)Apollo，60分鐘視頻輕松理解！7B性能超越30B

Meta和斯坦福大合發(fā)布Apollo：高效且強(qiáng)大的視頻多模態(tài)大模型

高效的評(píng)估基準(zhǔn)：ApolloBench

規(guī)模一致性：高效的模型設(shè)計(jì)

高效模型設(shè)計(jì)的關(guān)鍵因素

高效的多模態(tài)大模型訓(xùn)練

高性能的Apollo模型

聯(lián)系作者

全球百模爭(zhēng)霸，國(guó)產(chǎn)大模型拿下多個(gè)冠軍！智源FlagEval全球評(píng)測(cè)榜單出爐

從自動(dòng)駕駛到AIGC游戲：圖森未來陳默的轉(zhuǎn)型之路與IP戰(zhàn)略揭秘

相關(guān)文章

暫無評(píng)論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

Meta斯坦福全新多模態(tài)Apollo，60分鐘視頻輕松理解！7B性能超越30B

Meta和斯坦福大合發(fā)布Apollo：高效且強(qiáng)大的視頻多模態(tài)大模型

高效的評(píng)估基準(zhǔn)：ApolloBench

規(guī)模一致性：高效的模型設(shè)計(jì)

高效模型設(shè)計(jì)的關(guān)鍵因素

高效的多模態(tài)大模型訓(xùn)練

高性能的Apollo模型

聯(lián)系作者

全球百模爭(zhēng)霸，國(guó)產(chǎn)大模型拿下多個(gè)冠軍！智源FlagEval全球評(píng)測(cè)榜單出爐

從自動(dòng)駕駛到AIGC游戲：圖森未來陳默的轉(zhuǎn)型之路與IP戰(zhàn)略揭秘

相關(guān)文章

暫無評(píng)論

ChatGPT

玩虛擬模特？

Meta斯坦福全新多模態(tài)Apollo，60分鐘視頻輕松理解！7B性能超越30B

全球百模爭(zhēng)霸，國(guó)產(chǎn)大模型拿下多個(gè)冠軍！智源FlagEval全球評(píng)測(cè)榜單出爐

玩虛擬模特？