支持1024幀、準確率近100％，英偉達「LongVILA」開始發力長視頻

AIGC動態歡迎閱讀

原標題：支持1024幀、準確率近100％，英偉達「LongVILA」開始發力長視頻
關鍵字：序列,長上,模型,研究者,下文
文章來源：機器之心
內容字數：0字

內容摘要：

機器之心報道
編輯：杜偉、陳陳現在，長上下文視覺語言模型（VLM）有了新的全棧解決方案 ——LongVILA，它集系統、模型訓練與數據集開發于一體。現階段，將模型的多模態理解與長上下文能力相結合是非常重要的，支持更多模態的基礎模型可以接受更靈活的輸入信號，以便人們可以以更多樣化的方式與模型交互。而更長的上下文使模型處理的信息更多，例如長文檔、長視頻，這種能力同樣為更多現實世界的應用程序提供了所需的功能。
然而，目前面臨的問題是一些工作已經啟用了長上下文視覺語言模型（VLM），但通常是采用簡化的方法，而不是提供一個全面的解決方案。
全棧設計對于長上下文視覺語言模型至關重要。訓練大型模型通常是一項復雜而系統的工作，需要數據工程和系統軟件協同設計。與純文本 LLM 不同，VLM（例如 LLaVA）通常需要獨特的模型架構和靈活的分布式訓練策略。
此外，長上下文建模不僅需要長上下文數據，還需要能夠支持內存密集型長上下文訓練的基礎設施。因此，對于長上下文 VLM 來說，精心規劃的全棧設計（涵蓋系統、數據和 pipeline）是必不可少的。
本文，來自英偉達、MIT、UC 伯克利、得克薩斯大學奧斯汀

原文鏈接：支持1024幀、準確率近100％，英偉達「LongVILA」開始發力長視頻