<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        達摩院開源VideoLLaMA3:僅7B大小,視頻理解拿下SOTA | 在線可玩

        AIGC動態5個月前發布 量子位
        322 0 0

        還有2B的圖像理解模型

        達摩院開源VideoLLaMA3:僅7B大小,視頻理解拿下SOTA | 在線可玩

        原標題:達摩院開源VideoLLaMA3:僅7B大小,視頻理解拿下SOTA | 在線可玩
        文章來源:量子位
        內容字數:6118字

        達摩院發布7B參數視頻理解模型VideoLLaMA 3:圖像為中心,性能超越基線

        達摩院最新發布的7B參數視頻理解模型VideoLLaMA 3,在通用視頻理解、時間推理和長視頻理解等方面取得了顯著成果,超越了多數基線模型。更值得關注的是,其2B參數版本在圖像理解方面也表現出色。

        1. 核心優勢:圖像為中心的多模態模型

        VideoLLaMA 3的核心創新在于其“圖像為中心”的設計理念。該理念貫穿模型架構和訓練過程,通過高質量的圖像文本數據為視頻理解奠定堅實基礎。僅使用3M視頻文本數據,就實現了全面超越同參數量開源模型的視頻理解能力。這種高效的訓練方式,得益于其獨特的訓練范式,主要包含四個關鍵內容:

        1. 視覺編碼器適配: 能夠處理動態分辨率圖像,并利用不同場景圖像提升性能,捕捉精細視覺細節。

        2. 視覺語言對齊: 利用豐富圖像文本數據,增強多模態理解能力,并通過數據增強提升空間推理能力。

        3. 多任務微調: 利用圖像文本問答數據和視頻字幕數據微調模型,提升其遵循自然語言指令和多模態理解能力。

        4. 視頻微調: 增強模型視頻理解和問答能力,訓練數據包含多種視頻及圖像、文本數據。

        2. 技術創新:高效的模型架構

        VideoLLaMA 3的模型架構包含兩個關鍵創新:

        1. 任意分辨率視覺標記化(AVT):突破傳統固定分辨率限制,采用2D-RoPE替換絕對位置嵌入,能夠處理不同分辨率圖像和視頻,保留更多細節。

        2. 差分幀剪枝器(DiffFP):針對視頻數據冗余問題,通過比較相鄰幀像素空間的1-范數距離,修剪冗余視頻標記,提高視頻處理效率,減少計算需求。

        3. 高質量數據:精細的數據處理流程

        VideoLLaMA 3的成功也離不開高質量數據的支持。團隊構建了包含700萬圖像-字幕對的VL3Syn7M數據集,并進行了多步驟的數據清洗和增強,包括長寬比過濾、美學評分過濾、文本-圖像相似度計算、視覺特征聚類和圖像重新標注等。此外,團隊還采用了多階段數據混合策略,為模型提供豐富多樣的學習場景。

        4. 實際應用及效果展示

        VideoLLaMA 3已經在HuggingFace上提供圖像和視頻理解的demo。用戶只需上傳圖片或視頻,并提出問題,即可獲得精準的回答。例如,針對《蒙娜麗莎的微笑》的提問,模型能夠給出其歷史影響和藝術意義的詳細闡述;針對視頻中熊吃壽司的場景,模型能夠準確識別其不尋常之處。

        5. 總結

        VideoLLaMA 3憑借其圖像為中心的設計理念、高效的模型架構和高質量的數據,在視頻理解領域取得了顯著進展。其在HuggingFace上的公開demo也方便了用戶體驗和應用,為多模態模型的發展提供了新的方向。


        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破


        Warning: Undefined variable $sitetitle in /www/wwwroot/m.futurefh.com/wp-content/themes/OneNav-openi/inc/functions/io-single-post.php on line 91

        Warning: Undefined variable $a_class in /www/wwwroot/m.futurefh.com/wp-content/themes/OneNav-openi/inc/functions/io-single-post.php on line 91
        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 免费看大美女大黄大色| 一个人免费视频观看在线www| 久章草在线精品视频免费观看| 亚洲免费在线观看| 无遮挡免费一区二区三区 | 狠狠色伊人亚洲综合网站色| 日本人的色道免费网站| 亚洲综合久久1区2区3区| 在线a免费观看最新网站| 久久综合亚洲色一区二区三区| 老汉精品免费AV在线播放| 久久久亚洲欧洲日产国码二区| 91免费播放人人爽人人快乐| 亚洲男人天堂2022| 国产免费观看黄AV片| 免费国产va在线观看| 国产日产亚洲系列| 久久99国产综合精品免费| avtt天堂网手机版亚洲| 又粗又大又长又爽免费视频 | 风间由美在线亚洲一区| 亚洲国产中文字幕在线观看| 国产性生大片免费观看性| 亚洲宅男永久在线| 在线观看免费宅男视频| 亚洲免费在线观看| 日韩精品一区二区亚洲AV观看| 免费无码肉片在线观看| 日本高清免费中文在线看| 亚洲国产综合精品中文第一区 | 高潮毛片无遮挡高清免费| 亚洲精品国产精品乱码不卡√| 国产精品免费观看| 一区在线免费观看| 亚洲美女中文字幕| 全部免费毛片免费播放| 久久成人免费大片| 亚洲精品天堂无码中文字幕| 国产精品亚洲A∨天堂不卡| 免费无码A片一区二三区| 中国国语毛片免费观看视频|