AIGC動態歡迎閱讀
原標題:支持1024幀、準確率近100%,英偉達「LongVILA」開始發力長視頻
關鍵字:序列,長上,模型,研究者,下文
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
編輯:杜偉、陳陳現在,長上下文視覺語言模型(VLM)有了新的全棧解決方案 ——LongVILA,它集系統、模型訓練與數據集開發于一體。現階段,將模型的多模態理解與長上下文能力相結合是非常重要的,支持更多模態的基礎模型可以接受更靈活的輸入信號,以便人們可以以更多樣化的方式與模型交互。而更長的上下文使模型處理的信息更多,例如長文檔、長視頻,這種能力同樣為更多現實世界的應用程序提供了所需的功能。
然而,目前面臨的問題是一些工作已經啟用了長上下文視覺語言模型(VLM),但通常是采用簡化的方法,而不是提供一個全面的解決方案。
全棧設計對于長上下文視覺語言模型至關重要。訓練大型模型通常是一項復雜而系統的工作,需要數據工程和系統軟件協同設計。與純文本 LLM 不同,VLM(例如 LLaVA)通常需要獨特的模型架構和靈活的分布式訓練策略。
此外,長上下文建模不僅需要長上下文數據,還需要能夠支持內存密集型長上下文訓練的基礎設施。因此,對于長上下文 VLM 來說,精心規劃的全棧設計(涵蓋系統、數據和 pipeline)是必不可少的。
本文,來自英偉達、MIT、UC 伯克利、得克薩斯大學奧斯汀
原文鏈接:支持1024幀、準確率近100%,英偉達「LongVILA」開始發力長視頻
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...