Qwen2.5-VL系列模型正式開源,千問永遠(yuǎn)不會(huì)讓你失望 | 附實(shí)測結(jié)果
2025年的第一個(gè)月,國內(nèi)大模型廠商都太爭氣了!Qwen2.5-VL的表格解析效果有點(diǎn)強(qiáng)!
原標(biāo)題:Qwen2.5-VL系列模型正式開源,千問永遠(yuǎn)不會(huì)讓你失望 | 附實(shí)測結(jié)果
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):3966字
通義千問Qwen2.5-VL系列模型開源:多模態(tài)能力顯著提升
本文總結(jié)了通義千問在春節(jié)前夕開源的Qwen2.5-VL系列模型的特性和測試結(jié)果。該模型在多模態(tài)能力上取得了顯著進(jìn)步,尤其在表格解析方面表現(xiàn)突出。
模型概述
Qwen2.5-VL系列模型包含三個(gè)尺寸:3B、7B和72B,分別適用于端側(cè)部署、速度與效果平衡以及追求最佳效果的場景。其中7B模型在多個(gè)開源榜單上排名第一,72B模型則與GPT4-o和Claude 3.5性能相當(dāng)。該模型不僅提升了對(duì)話、指令跟隨、數(shù)學(xué)和代碼能力,還支持坐標(biāo)、JSON等返回格式,以及更長視頻(1小時(shí))的理解、更細(xì)粒度的時(shí)間感知、更全面的知識(shí)解析和更強(qiáng)的Agent能力(操作手機(jī)和電腦)。其視覺編碼器采用原生訓(xùn)練的動(dòng)態(tài)分辨率ViT,并引入空間和時(shí)間維度編碼,提升了對(duì)空間和時(shí)間的理解能力。
實(shí)測結(jié)果
文章作者對(duì)Qwen2.5-VL模型進(jìn)行了多項(xiàng)測試,包括表格解析、數(shù)學(xué)能力、信息抽取、計(jì)算、理解能力以及色盲測試。在表格解析方面,Qwen2.5-VL-72B模型對(duì)簡單、中等和復(fù)雜表格均實(shí)現(xiàn)了完全正確的解析,表現(xiàn)遠(yuǎn)超此前GPT4-o、Claude和Gemini等模型。在數(shù)學(xué)測試中,該模型正確解答了2024年高考全國甲卷(文理科)數(shù)學(xué)試題。信息抽取、計(jì)算和理解能力測試也取得了較好的結(jié)果,僅在手寫OCR識(shí)別現(xiàn)輕微錯(cuò)誤。色盲測試則通過了一半。
Hugging Face快速使用
文章提供了在Hugging Face上使用Qwen2.5-VL-7B模型的代碼示例,展示了如何利用該模型進(jìn)行圖像描述任務(wù)。
總結(jié)
作者認(rèn)為Qwen2.5-VL是國內(nèi)開源大模型的佼佼者,其在多模態(tài)能力上的提升令人印象深刻,尤其在表格解析方面的突破非常值得關(guān)注。文章最后表達(dá)了對(duì)后續(xù)Qwen3、QwQ和QvQ模型更新的期待。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下賬號(hào),專注于生成式人工智能,主要分享技術(shù)文章、論文成果與產(chǎn)品信息。