北大王選所:讓多模態(tài)大模型更懂人類在做什么|ECCV 2024
AIGC動態(tài)歡迎閱讀
原標題:北大王選所:讓多模態(tài)大模型更懂人類在做什么|ECCV 2024
關鍵字:類別,提示,人物,特征,模型
文章來源:量子位
內容字數:0字
內容摘要:
北京大學王選計算機研究所雷廷 投稿量子位 | 公眾號 QbitAI只用提示詞,多模態(tài)大模型就能更懂場景中的人物關系了。
北京大學最新提出多模態(tài)提示學習(Conditional Multi-Modal Prompt, CMMP)方法,利用提示詞工程技術教會多模態(tài)大模型理解區(qū)域級的人物交互關系。
在這個過程中,最難的部分在于教會模型識別未見過的人物交互類型。
要知道,大多數現有研究都集中在封閉環(huán)境,一旦變成更接近現實的開放環(huán)境,模型就懵逼了!
比如下圖,先前的檢測器在平衡已見和未見類別時遇到了困難,導致調和平均值較低,并且在未見類別上的表現較差。
相比之下,CMMP方法有效解決了這一平衡問題,大幅提升了性能,并為未見類別建立了新的最佳性能。
至于CMMP方法如何解決未見類別,一句話:
在特征提取過程中使用視覺空間線索,幫助識別未見的人物-物體交互概念,并通過條件提示學習提高對未見類別的泛化能力。
總之,CMMP方法提供了一種新的范式,可以微調多模態(tài)大模型,使其具備泛化的區(qū)域級人物交互關系檢測能力。
以上研究來自北大王選計算機技術研究所,相關論文已被頂會ECCV 2024接收。
零樣本人物交
原文鏈接:北大王選所:讓多模態(tài)大模型更懂人類在做什么|ECCV 2024
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...