實時流式視頻通話+高級語音理解
原標題:全球首次!國產AI開源端側GPT-4o海外爆火,8B參數iPad就能跑
文章來源:量子位
內容字數:7417字
國產AI“MiniCPM-o 2.6”驚艷
國產AI模型MiniCPM-o 2.6憑借其強大的多模態能力和僅8B的體量,在海外社交媒體上引發熱議。這款模型可以在iPad等端側設備上運行,其性能甚至可以與GPT-4o相媲美,甚至在某些方面超越后者。文章詳細介紹了MiniCPM-o 2.6的各項能力以及背后的技術原理。
1. MiniCPM-o 2.6 的多模態能力
MiniCPM-o 2.6展現出強大的“看、聽、說”能力。它能夠精準識別各種聲音,例如翻書聲、咳嗽聲等;能夠理解視頻內容,例如識別游戲《黑神話:悟空》;能夠理解圖片信息,例如指導用戶調整自行車座椅,并具備強大的OCR能力,可以處理高像素圖像;還能進行多語言表達,例如用四川話講解火鍋烹飪方法。
2. 技術架構解析:高效的端到端全模態架構
MiniCPM-o 2.6的出色性能源于其端到端全模態架構。該架構將文本、圖像、音頻等不同類型數據的編碼和解碼模塊連接起來進行訓練,使模型能夠綜合考慮不同模態之間的關聯和交互。為了適應流式輸入輸出,面壁智能團隊對離線編解碼器模塊進行了改造,并設計了時分復用的全模態流式信息處理機制(OTDM),實現了高效的實時交互。
3. 面壁智能的“以小博大”策略
面壁智能專注于面向邊端算力場景進行極致優化,致力于開發在手機、iPad等端側設備上高效運行的大模型。MiniCPM-o 2.6是其“以小博大”策略的最新成果,延續了之前MiniCPM系列模型“小體量、高性能”的特點。其前身MiniCPM系列模型在多個測評中超越了其他大型模型,并以低廉的成本提供了強大的性能。
4. 開源與應用前景
MiniCPM-o 2.6已在GitHub和Hugging Face開源,并提供在線demo。其端側運行的能力使其能夠在弱網或斷網環境下正常工作,擴展了應用場景,特別適合部署在智能眼鏡等設備上,為視障人士提供便利。
5. 國產開源大模型的崛起
文章最后提到,國產開源大模型發展迅速,DeepSeek、阿里Qwen和面壁智能等廠商表現亮眼,展現了中國在AI領域的競爭力。
總而言之,MiniCPM-o 2.6的出現標志著國產AI在多模態領域取得了顯著進展,其開源特性也為AI社區的發展貢獻了力量。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破