AIGC動態歡迎閱讀
原標題:只需將感知推理能力拆分,2B大模型就能戰勝20B!國產新框架高效處理視覺任務
關鍵字:模型,視覺,指令,性能,能力
文章來源:量子位
內容字數:0字
內容摘要:
Prism團隊 投稿至 凹非寺量子位 | 公眾號 QbitAI只要把推理和感知能力拆分,2B大模型就能戰勝20B?!
上海AI Lab聯合學、香港中文大學等機構,共同推出了一套兩階段框架——Prism。
這一框架不僅顯式地解耦了視覺語言模型(VLM)的感知和推理,還提供了一種更高效的處理視覺語言任務的方案。
最終讓2B VLM和ChatGPT的組合表現出相當于10倍參數量VLM的性能。
Prism框架架構及功能在解決復雜的視覺語言任務時,模型的感知和推理能力至關重要。當模型在基準測試中表現不佳時,我們如何區分問題源自感知能力還是推理能力?
針對這一問題,Prism框架將視覺語言任務處理拆分為兩個階段:
感知階段:VLM作為感知模塊遵循指令提取輸入圖片的視覺信息,并以文本形式輸出
推理階段:LLM作為推理模塊根據提取得到的文本信息,結合輸入文本生成回復
框架架構如下圖所示:
Prism框架中用于引導VLM生成圖片描述的指令可以是問題相關的,也可以是問題無關的。
VLM在框架中只用于視覺感知,而推理任務則由LLM解決。通過固定框架中的LLM,可以測試不同VLM的感知能力;相對應地
原文鏈接:只需將感知推理能力拆分,2B大模型就能戰勝20B!國產新框架高效處理視覺任務
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...