原標題:Meta斯坦福全新多模態Apollo,60分鐘視頻輕松理解!7B性能超越30B
文章來源:新智元
內容字數:7954字
多模態大模型在視頻理解中的新突破
Meta與斯坦福大學的聯合研究團隊針對多模態大模型(LMM)在視頻理解中的機制進行了深入探討,提出了一系列創新的模型設計和訓練方法。研究旨在提升現有視頻問答基準的效率,并通過推出ApolloBench來解決評估過程中的資源密集和冗余問題。
1. ApolloBench的高效評估
研究團隊開發了ApolloBench,通過篩選問題并歸類為五大時態感知類別,驗證其有效性。與現有基準相比較,ApolloBench的評估速度提高了41倍,同時保持了高度相關性,表明其在視頻理解領域的有效性。
2. 模型規模的一致性
研究發現,約2-4B規模的模型設計決策與更大模型高度相關,稱之為“規模一致性”。這一發現使得研究人員能夠在中等規模的模型上進行設計決策,并可靠地遷移到更大的模型上,從而減少了擴展研究的需求。
3. 視頻采樣和表示
在視頻采樣方面,研究表明fps采樣在訓練和推理過程中優于均勻采樣。此外,SigLIP-SO400M在單編碼器設置中的表現優于其他編碼器,顯示出視頻編碼器在時態感知方面的優勢。
4. 視頻token重采樣與集成
研究還探討了token重采樣的重要性,發現感知重采樣在各項指標上均表現優越。同時,集成視頻和文本token的策略也對模型的性能產生了顯著影響,特別是在時間戳的應用上。
5. 訓練調度與數據組合
研究團隊評估了不同的訓練調度策略,發現三階段訓練效果最佳。此外,混合數據的使用,特別是適量的文本數據,能夠有效提升模型性能,避免災難性遺忘。
6. Apollo模型的優越表現
Apollo模型在多個基準數據集上表現出色,Apollo-7B模型的性能甚至超過了某些參數超過30B的模型,顯示出精心設計架構和訓練策略的重要性。
綜上所述,此項研究為視頻理解領域的多模態大模型提供了新的視角和方法,推動了相關技術的進步與創新。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。