4秒看完2小時電影！阿里發布通用多模態大模型mPLUG-Owl3 | 開源

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：4秒看完2小時電影！阿里發布通用多模態大模型mPLUG-Owl3 | 開源
關鍵字：模型,報告,圖片,視覺,特征
文章來源：量子位
內容字數：0字

內容摘要：

阿里mPLUG團隊投稿量子位 | 公眾號 QbitAI4秒看完2小時電影，阿里團隊新成果正式亮相——
推出通用多模態大模型mPLUG-Owl3，專門用來理解多圖、長視頻。
具體來說，以LLaVA-Next-Interleave為基準，mPLUG-Owl3將模型的First Token Latency縮小了6倍，且單張A100能建模的圖像數目提升了8倍，達到了400張圖片，實測4秒就能看完一部2小時的電影。
換句話說，模型的推理效率有了極大提升。
而且不犧牲模型的準確性。
mPLUG-Owl3還在多模態大模型所涉及的各種場景，包括單圖、多圖、視頻領域的諸多Benchmarks上達到了SOTA。
論文作者來自阿里mPLUG團隊，他們一直深耕多模態大模型底座，在此之前還提出了：
高效多模態底座mPLUG系列
模塊化多模態大語言模型底座mPLUG-Owl系列
文檔理解底座mPLUG-DocOwl系列
下面就讓我們來了解一下本次發布的mPLUG-Owl3究竟帶來了什么黑科技吧。
玩法解鎖團隊展示了mPLUG-Owl3的幾種常見用法。
多模態檢索增強一般來說，對于模型沒有學過的知識，通過檢索系統

原文鏈接：4秒看完2小時電影！阿里發布通用多模態大模型mPLUG-Owl3 | 開源