AIGC動態歡迎閱讀
原標題:4秒看完2小時電影!阿里發布通用多模態大模型mPLUG-Owl3 | 開源
關鍵字:模型,報告,圖片,視覺,特征
文章來源:量子位
內容字數:0字
內容摘要:
阿里mPLUG團隊 投稿量子位 | 公眾號 QbitAI4秒看完2小時電影,阿里團隊新成果正式亮相——
推出通用多模態大模型mPLUG-Owl3,專門用來理解多圖、長視頻。
具體來說,以LLaVA-Next-Interleave為基準,mPLUG-Owl3將模型的First Token Latency縮小了6倍,且單張A100能建模的圖像數目提升了8倍,達到了400張圖片,實測4秒就能看完一部2小時的電影。
換句話說,模型的推理效率有了極大提升。
而且不犧牲模型的準確性。
mPLUG-Owl3還在多模態大模型所涉及的各種場景,包括單圖、多圖、視頻領域的諸多Benchmarks上達到了SOTA。
論文作者來自阿里mPLUG團隊,他們一直深耕多模態大模型底座,在此之前還提出了:
高效多模態底座mPLUG系列
模塊化多模態大語言模型底座mPLUG-Owl系列
文檔理解底座mPLUG-DocOwl系列
下面就讓我們來了解一下本次發布的mPLUG-Owl3究竟帶來了什么黑科技吧。
玩法解鎖團隊展示了mPLUG-Owl3的幾種常見用法。
多模態檢索增強一般來說,對于模型沒有學過的知識,通過檢索系統
原文鏈接:4秒看完2小時電影!阿里發布通用多模態大模型mPLUG-Owl3 | 開源
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...