AIGC動態歡迎閱讀
原標題:實時視頻理解首次上端!面壁小鋼炮2.6 攜單圖、多圖、視頻理解3 SOTA,全面對標 GPT-4V 最強多模態
關鍵字:比亞迪,模型,能力,華為,字節跳動
文章來源:AI前線
內容字數:0字
內容摘要:
整理 | 褚杏娟
8 月 6 日,面壁智能宣布「小鋼炮」 MiniCPM-V 2.6 模型重磅上新!據悉,該模型僅 8B 參數,但將實時視頻理解、多圖聯合理解(還包括多圖 OCR、多圖 ICL 等)能力首次搬上了端側多模態模型。
據介紹,MiniCPM-V 2.6 延續了小鋼炮系列一貫的以小博大與高效低成本特點:
“三合一”最強端側多模態:首次在端側實現單圖、多圖、視頻理解等多模態核心能力全面超越 GPT-4V,單圖理解越級比肩多模態王者 Gemini 1.5 Pro 和新晉頂流 GPT-4o mini 。
多項功能首次上端:實時視頻理解、多圖聯合理解、多圖 ICL 視覺類比學習、多圖 OCR 等功能,第一次讓端側模型睜開觀察、理解真實流動世界的「眼睛」,不僅看得清晰,還能有樣學樣、模仿學習。
極致高效,最高多模態像素密度:類比知識密度,小鋼炮 2.6 取得了兩倍于 GPT-4o 的單 token 編碼像素密度(token density),在端側方寸之地,一路將大模型「能效比」挖到極限。這一進展,得益于視覺 token 相比上一代下降 30% ,比同類模型低 75%。
端側友好:量
原文鏈接:實時視頻理解首次上端!面壁小鋼炮2.6 攜單圖、多圖、視頻理解3 SOTA,全面對標 GPT-4V 最強多模態
聯系作者
文章來源:AI前線
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...