用GPT-3.5生成數(shù)據(jù)集!北大天工等團(tuán)隊(duì)圖像編輯新SOTA,可精準(zhǔn)模擬物理世界場(chǎng)景

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:用GPT-3.5生成數(shù)據(jù)集!北大天工等團(tuán)隊(duì)圖像編輯新SOTA,可精準(zhǔn)模擬物理世界場(chǎng)景
關(guān)鍵字:數(shù)據(jù),團(tuán)隊(duì),編輯,世界,指令
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
楊靈 投稿量子位 | 公眾號(hào) QbitAI高質(zhì)量圖像編輯的方法有很多,但都很難準(zhǔn)確表達(dá)出真實(shí)的物理世界。
那么,Edit the World試試。
來(lái)自北京大學(xué)、Tiamat AI、天工AI、Mila實(shí)驗(yàn)室提出了EditWorld,他們引入了一種新的編輯任務(wù),即世界指令(world-instructed)圖像編輯,它定義和分類(lèi)基于各種世界場(chǎng)景的指令。
在一組預(yù)訓(xùn)練模型,比如GPT-3.5、Video-LLava 和 SDXL的支持下,建立了一個(gè)帶有世界指令的多模態(tài)數(shù)據(jù)集。
在該數(shù)據(jù)集訓(xùn)練了一個(gè)基于擴(kuò)散的圖像編輯模型EditWorld,結(jié)果在其新任務(wù)的表現(xiàn)明顯優(yōu)于現(xiàn)有的編輯方法,實(shí)現(xiàn)SOTA。
圖像編輯新SOTA現(xiàn)有的方法通過(guò)多種途徑實(shí)現(xiàn)高質(zhì)量的圖像編輯,包括但不限于文本控制、拖動(dòng)操作以及inpainting。其中,利用instruction進(jìn)行編輯的方法由于使用方便受到廣泛的關(guān)注。
盡管現(xiàn)有的圖片編輯方法能夠產(chǎn)生高質(zhì)量的結(jié)果,但它們?cè)谔幚韨鬟_(dá)物理世界中真實(shí)視覺(jué)動(dòng)態(tài)的世界動(dòng)態(tài)方面仍然存在困難。
如圖1所示,無(wú)論是InstructPix2pix還是MagicBrush都無(wú)法生成合理的編輯結(jié)
原文鏈接:用GPT-3.5生成數(shù)據(jù)集!北大天工等團(tuán)隊(duì)圖像編輯新SOTA,可精準(zhǔn)模擬物理世界場(chǎng)景
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破

粵公網(wǎng)安備 44011502001135號(hào)