探索未來:Megrez-3B-Omni——顛覆傳統(tǒng)的全模態(tài)大模型實現(xiàn)新突破
中午看到無問芯穹開源了一個端側(cè)全模態(tài)大模型-Megrez-3B-Omni,馬上來測測看,效果如何。

原標(biāo)題:實測!無問芯穹最新端側(cè)全模態(tài)大模型Megrez-3B-Omni
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):6687字
智猩猩AI新青年講座及Megrez-3B-Omni模型概述
12月23日10點,德州農(nóng)工大學(xué)計算機系博士余政銘將進(jìn)行關(guān)于《任意拓?fù)涞母哔|(zhì)量3D物體生成》的講座,歡迎大家掃名參與。同時,無問芯穹推出了一個全模態(tài)大模型——Megrez-3B-Omni,支持文本、圖像和語音的理解與生成。
1. Megrez-3B-Omni模型介紹
Megrez-3B-Omni是基于Megrez-3B-Instruct擴(kuò)展的端側(cè)全模態(tài)理解模型,具備處理圖片、文本和音頻三種模態(tài)的能力。相較于同類參數(shù)模型,它在多個模態(tài)上均取得了良好的效果。
2. 模型實測
模型測試分為三個方面:文本、圖像和語音。
2.1 文本測試
模型在解答數(shù)學(xué)和邏輯問題時存在一定局限性,特別是在復(fù)雜數(shù)學(xué)題上更是顯得力不從心。不過,它在倫理和生物等領(lǐng)域的回答安全性較高,整體表現(xiàn)尚可。
2.2 圖像測試
在單圖信息抽取及理解方面,Megrez-3B-Omni能準(zhǔn)確回答簡單問題,但在復(fù)雜表格的識別上效果一般。目前版本不支持多圖處理,預(yù)計未來版本會有所改善。
2.3 語音測試
模型在語音轉(zhuǎn)文本和語音問答方面表現(xiàn)良好,能夠準(zhǔn)確理解語音內(nèi)容。
3. Web-Search項目介紹
該項目基于Megrez-3B-Instruct模型,旨在實現(xiàn)高效的網(wǎng)頁搜索功能,增加了摘要過程以去除無效信息并提高模型回復(fù)效果。整體流程簡單易用,可在本地快速部署。
4. 總結(jié)
Megrez-3B-Omni整體體驗不錯,但在OCR、數(shù)學(xué)能力等方面依然需要改進(jìn)。盡管面臨資源緊張和模型大小的矛盾,端側(cè)全模態(tài)模型的推出為應(yīng)用落地提供了新的可能性。期待未來版本的進(jìn)一步優(yōu)化與更新。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關(guān)注大模型與AI智能體,及時搜羅生成式AI技術(shù)產(chǎn)品。

粵公網(wǎng)安備 44011502001135號