<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Meta斯坦福全新多模態(tài)Apollo,60分鐘視頻輕松理解!7B性能超越30B

        AIGC動(dòng)態(tài)8個(gè)月前發(fā)布 新智元
        478 0 0

        Meta斯坦福全新多模態(tài)Apollo,60分鐘視頻輕松理解!7B性能超越30B

        原標(biāo)題:Meta斯坦福全新多模態(tài)Apollo,60分鐘視頻輕松理解!7B性能超越30B
        文章來(lái)源:新智元
        內(nèi)容字?jǐn)?shù):7954字

        Meta和斯坦福大合發(fā)布Apollo:高效且強(qiáng)大的視頻多模態(tài)大模型

        Meta和斯坦福大學(xué)的研究團(tuán)隊(duì)合作,對(duì)視頻多模態(tài)大模型(LMM)進(jìn)行了全面的研究,取得了顯著成果。他們不僅創(chuàng)建了新的評(píng)估基準(zhǔn)ApolloBench,提高了評(píng)估效率,還提出了模型設(shè)計(jì)的“規(guī)模一致性”概念,并開(kāi)源了高性能的Apollo模型,在多個(gè)基準(zhǔn)測(cè)試中取得了領(lǐng)先結(jié)果。

        1. 高效的評(píng)估基準(zhǔn):ApolloBench

          現(xiàn)有的視頻問(wèn)答基準(zhǔn)存在資源密集和冗余的問(wèn)題。研究團(tuán)隊(duì)針對(duì)此問(wèn)題,創(chuàng)建了ApolloBench。該基準(zhǔn)通過(guò)篩選問(wèn)題,確定了五大時(shí)態(tài)感知類別,并手動(dòng)選擇和驗(yàn)證了400個(gè)問(wèn)題。ApolloBench的評(píng)估速度比現(xiàn)有基準(zhǔn)快41倍,同時(shí)與現(xiàn)有基準(zhǔn)高度相關(guān),更能體現(xiàn)視頻感知能力。這使得對(duì)視頻LMM的評(píng)估更加高效和有效。

        2. 規(guī)模一致性:高效的模型設(shè)計(jì)

          研究發(fā)現(xiàn),中等規(guī)模(約2-4B)模型的設(shè)計(jì)決策與更大模型高度相關(guān),他們將此現(xiàn)象稱為“規(guī)模一致性”。這意味著在中等規(guī)模模型和數(shù)據(jù)集上進(jìn)行的設(shè)計(jì)決策可以可靠地遷移到更大的模型,這大大減少了模型設(shè)計(jì)和擴(kuò)展研究的成本。

        3. 高效模型設(shè)計(jì)的關(guān)鍵因素

          研究團(tuán)隊(duì)深入探索了影響LMM設(shè)計(jì)效率的關(guān)鍵因素,包括視頻采樣、視頻表示、視頻token重采樣和視頻token集成。實(shí)驗(yàn)結(jié)果表明:fps采樣優(yōu)于均勻采樣;SigLIP-SO400M是最佳單一視頻編碼器,結(jié)合InternVideo2性能更佳;感知器重采樣在token重采樣中表現(xiàn)最佳;在視頻token之間添加文本或?qū)W習(xí)到的token可以提高token集成效率。

        4. 高效的多模態(tài)大模型訓(xùn)練

          研究團(tuán)隊(duì)還探索了高效的訓(xùn)練策略,包括訓(xùn)練調(diào)度器和數(shù)據(jù)組合。三階段訓(xùn)練調(diào)度策略效果最佳;在混合數(shù)據(jù)上訓(xùn)練視覺(jué)編碼器,并包含10%-14%的文本數(shù)據(jù),可以有效避免災(zāi)難性遺忘并提升性能;視頻數(shù)據(jù)和圖像數(shù)據(jù)比例應(yīng)略微偏向視頻數(shù)據(jù)。

        5. 高性能的Apollo模型

          基于以上研究成果,團(tuán)隊(duì)開(kāi)發(fā)了一系列Apollo模型,其中Apollo-3B超越了幾乎所有7B模型,Apollo-7B則是目前7B模型中性能最佳的。Apollo-7B甚至在某些基準(zhǔn)上與參數(shù)超過(guò)30B的模型性能相當(dāng),甚至超越,這證明了高效的模型設(shè)計(jì)和訓(xùn)練策略的重要性。

        總而言之,Meta和斯坦福大學(xué)的研究團(tuán)隊(duì)通過(guò)創(chuàng)建ApolloBench、提出規(guī)模一致性概念、探索高效模型設(shè)計(jì)和訓(xùn)練策略,并開(kāi)源高性能的Apollo模型,為視頻多模態(tài)大模型的研究和發(fā)展做出了重要貢獻(xiàn)。這項(xiàng)工作不僅推動(dòng)了視頻理解領(lǐng)域的發(fā)展,也為其他多模態(tài)大模型的研究提供了寶貴的經(jīng)驗(yàn)和參考。


        聯(lián)系作者

        文章來(lái)源:新智元
        作者微信:
        作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無(wú)評(píng)論

        暫無(wú)評(píng)論...
        主站蜘蛛池模板: 亚洲一区二区在线视频| 四虎免费久久影院| 亚洲第一成年男人的天堂| 美女巨胸喷奶水视频www免费| 亚洲国产精品日韩专区AV| 免费一级特黄特色大片| 亚洲JIZZJIZZ中国少妇中文| 爱情岛论坛免费视频| 亚洲精品一级无码鲁丝片| 国产99视频精品免费视频76| 亚洲精品国偷自产在线| 成人性做爰aaa片免费看| 久久久久亚洲av无码专区喷水| 91福利视频免费| 亚洲精品综合在线影院| 国产精品免费播放| 曰批免费视频播放在线看片二 | 国产高清视频免费在线观看| 国产午夜亚洲精品理论片不卡 | 99精品视频在线免费观看| 亚洲一区精彩视频| 免费看国产曰批40分钟| 国产免费区在线观看十分钟| 亚洲视频在线播放| 成人午夜免费福利| 国产99久久久久久免费看| 亚洲首页在线观看| 国产精品国产午夜免费福利看| 伊人久久国产免费观看视频| 久久精品国产精品亚洲艾草网 | 亚洲乱色伦图片区小说| MM131亚洲国产美女久久| 最近免费中文字幕大全免费版视频| 亚洲熟妇无码一区二区三区| 亚洲精品色婷婷在线影院| 最近中文字幕免费完整| 激情婷婷成人亚洲综合| 久久久久亚洲AV片无码| 日本a级片免费看| 成人久久免费网站| 亚洲AV无码一区二区三区性色 |