AIGC動態歡迎閱讀
原標題:用AI短視頻「反哺」長視頻理解,騰訊MovieLLM框架瞄準電影級連續幀生成
關鍵字:騰訊,模型,視頻,數據,電影
文章來源:機器之心
內容字數:3633字
內容摘要:
機器之心專欄
機器之心編輯部在視頻理解這一領域,盡管多模態模型在短視頻分析上取得了突破性進展,展現出了較強的理解能力,但當它們面對電影級別的長視頻時,卻顯得力不從心。因而,長視頻的分析與理解,特別是對于長達數小時電影內容的理解,成為了當前的一個巨大挑戰。
究其原因,導致模型理解長視頻困難的一個主要原因是缺乏高質量、多樣化的長視頻數據資源,而且收集和注釋這些數據需要龐大的工作量。
面對這樣的難題, 騰訊和復旦大學的研究團隊提出了 MovieLLM,一個創新性的 AI 生成框架。MovieLLM 采用了創新性的方法,不僅可以生成高質量、多樣化的視頻數據,而且能自動生成大量與之相關的問答數據集,極大地豐富了數據的維度和深度,同時整個自動化的過程也極大地減少了人力的投入。論文地址:https://arxiv.org/abs/2403.01422
主頁地址:https://deaddawn.github.io/MovieLLM/
這一突破性的進展不僅提高了模型對復雜視頻敘事的理解能力,還增強了模型針對長達數小時電影內容的分析能力,克服了現有數據集在稀缺性和偏差方面的限制,為超長視頻的理解提供了一
原文鏈接:用AI短視頻「反哺」長視頻理解,騰訊MovieLLM框架瞄準電影級連續幀生成
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...