AI視頻理解天花板,全新MiniGPT4-Video刷爆SOTA!寶格麗宣傳片配文一絕
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:AI視頻理解天花板,全新MiniGPT4-Video刷爆SOTA!寶格麗宣傳片配文一絕
關(guān)鍵字:研究人員,視頻,解讀,模型,視覺(jué)
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):5803字
內(nèi)容摘要:
新智元報(bào)道編輯:桃子 潤(rùn)
【新智元導(dǎo)讀】秒懂視頻的AI誕生了!KAUST和哈佛大學(xué)研究團(tuán)隊(duì)提出MiniGPT4-Video框架,不僅能理解復(fù)雜視頻,甚至還能作詩(shī)配文。幾天前,OpenAI官方賬號(hào)發(fā)布了第一支由Sora制作的MV——Worldweight,引全網(wǎng)圍觀。
AI視頻,已然成為多模態(tài)LLM發(fā)展的大趨勢(shì)。
然而,除了視頻生成,讓LLM對(duì)復(fù)雜視頻進(jìn)行理解,也至關(guān)重要。
最近,來(lái)自KAUST和哈佛大學(xué)的研究人員提出了MiniGPT4-Video——專為視頻理解而設(shè)計(jì)的多模態(tài)大模型。
論文地址:https://arxiv.org/pdf/2404.03413.pdf
值得一提的是,MiniGPT4-Video能夠同時(shí)處理時(shí)態(tài)視覺(jué)數(shù)據(jù)和文本數(shù)據(jù),因此善于理解視頻的復(fù)雜性。
比如,上傳一個(gè)寶格麗的首飾宣傳視頻。
MiniGPT4-Video能夠?yàn)槠渑涑鰳?biāo)題,宣傳語(yǔ)。
再比如,使用虛幻引擎制作的視頻,新模型可以對(duì)其進(jìn)行理解。
能看出這個(gè)視頻使用了后期處理和特效,而不是實(shí)際拍攝出來(lái)的。
甚至,看過(guò)一簇簇花盛開(kāi)的視頻,MiniGPT4-video即興作出了超美的抒情詩(shī)。
基于MiniGPT-v
原文鏈接:AI視頻理解天花板,全新MiniGPT4-Video刷爆SOTA!寶格麗宣傳片配文一絕
聯(lián)系作者
文章來(lái)源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。