多模態(tài)大模型有了統(tǒng)一分割框架,華科PSALM多任務(wù)登頂,模型代碼全開源
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:多模態(tài)大模型有了統(tǒng)一分割框架,華科PSALM多任務(wù)登頂,模型代碼全開源
關(guān)鍵字:任務(wù),模型,提示,全景,圖像
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):4814字
內(nèi)容摘要:
機(jī)器之心專欄
機(jī)器之心編輯部最近,多模態(tài)大模型(LMM)取得了一系列引人注目的成就,特別是在視覺 – 語言任務(wù)上的表現(xiàn)令人矚目。它們的成功不僅展現(xiàn)了多模態(tài)大模型在各個(gè)領(lǐng)域的實(shí)用性和靈活性,也為更多視覺場(chǎng)景下的應(yīng)用探索了新的道路。
盡管如此,在將 LMM 應(yīng)用到計(jì)算機(jī)視覺任務(wù)上時(shí),我們?nèi)悦媾R一個(gè)關(guān)鍵挑戰(zhàn):大多數(shù) LMM 目前只限于文本輸出,這限制了它們?cè)谔幚砀?xì)粒度的視覺任務(wù),如圖像分割方面的能力。
此外,圖像分割領(lǐng)域內(nèi)部的需求多樣化,任務(wù)各異 —— 實(shí)例分割需為每個(gè)對(duì)象分配唯一 ID 并計(jì)算類別信賴度,指代分割(RES)則需要基于描述性語句來識(shí)別圖像中的特定區(qū)域,而交互式分割的輸入可能包括點(diǎn)、線、邊界框或掩碼。這些不同的輸入和輸出格式如何能夠被 LMM 高效地統(tǒng)一和處理,目前仍然是一個(gè)開放性問題。華中科技大學(xué)的研究團(tuán)隊(duì)針對(duì)多模態(tài)大模型(LMM)在視覺任務(wù)中的應(yīng)用挑戰(zhàn),推出了針對(duì)性的解決方案:PSALM 模型。這一模型的設(shè)計(jì)理念是:通過一個(gè)統(tǒng)一的框架處理絕大多數(shù)類型的圖像分割任務(wù),從而實(shí)現(xiàn)分割任務(wù)的全面覆蓋。
同時(shí),得益于多模態(tài)大模型廣泛的預(yù)訓(xùn)練,PSALM 不僅在已見分割任務(wù)上表現(xiàn)出色
原文鏈接:多模態(tài)大模型有了統(tǒng)一分割框架,華科PSALM多任務(wù)登頂,模型代碼全開源
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)