下載次數(shù)破39萬(wàn)!CMU、Meta聯(lián)合發(fā)布VQAScore文生圖優(yōu)化方案:Imagen3已采用
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:下載次數(shù)破39萬(wàn)!CMU、Meta聯(lián)合發(fā)布VQAScore文生圖優(yōu)化方案:Imagen3已采用
關(guān)鍵字:模型,圖像,報(bào)告,提示,基準(zhǔn)
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:LRST
【新智元導(dǎo)讀】VQAScore是一個(gè)利用視覺(jué)問(wèn)答模型來(lái)評(píng)估由文本提示生成的圖像質(zhì)量的新方法;GenAI-Bench是一個(gè)包含復(fù)雜文本提示的基準(zhǔn)測(cè)試集,用于挑戰(zhàn)和提升現(xiàn)有的圖像生成模型。兩個(gè)工具可以幫助研究人員自動(dòng)評(píng)估AI模型的性能,還能通過(guò)選擇最佳候選圖像來(lái)實(shí)際改善生成的圖像。近年來(lái),生成式人工智能(AIGC)引發(fā)廣泛關(guān)注。Midjourney、Imagen3、Stable Diffusion和Sora等模型能夠根據(jù)自然語(yǔ)言提示詞生成美觀且逼真的圖像和視頻,廣受用戶(hù)喜愛(ài)。然而,這些模型在處理復(fù)雜的提示詞時(shí)仍存在不足。例如,當(dāng)讓Stable Diffusion或Midjourney生成「棕色的狗繞著一棵樹(shù)追黑色的狗」時(shí),模型可能會(huì)錯(cuò)誤生成兩只,或?qū)ⅰ缸分稹拐`解為兩只狗在「玩耍」。有什么辦法可以自動(dòng)發(fā)現(xiàn)這些模型的不足,并進(jìn)一步提升它們呢?
為解決這一問(wèn)題,CMU和Meta團(tuán)隊(duì)聯(lián)合推出了全新的評(píng)估指標(biāo)VQAScore及基準(zhǔn)GenAI-Bench,用于自動(dòng)評(píng)估圖像、視頻和3D生成模型在復(fù)雜提示詞下的表現(xiàn)。ECCV’24論文鏈接::https://arxiv.or
原文鏈接:下載次數(shù)破39萬(wàn)!CMU、Meta聯(lián)合發(fā)布VQAScore文生圖優(yōu)化方案:Imagen3已采用
聯(lián)系作者
文章來(lái)源:新智元
作者微信:
作者簡(jiǎn)介: