顏水成掛帥,奠定「通用視覺(jué)多模態(tài)大模型」終極形態(tài)!一統(tǒng)理解/生成/分割/編輯

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:顏水成掛帥,奠定「通用視覺(jué)多模態(tài)大模型」終極形態(tài)!一統(tǒng)理解/生成/分割/編輯
關(guān)鍵字:視覺(jué),模型,任務(wù),模塊,圖像
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):15313字
內(nèi)容摘要:
新智元報(bào)道編輯:LRS
【新智元導(dǎo)讀】顏水成團(tuán)隊(duì)聯(lián)合新加坡國(guó)立、南洋理工大學(xué)共同開(kāi)源了Vitron模型,持從視覺(jué)理解到視覺(jué)生成、從低層次到高層次的一系列視覺(jué)任務(wù),為下一代通用視覺(jué)大模型的終極形態(tài)奠定了基礎(chǔ),也標(biāo)志著大模型邁向通用人工智能(AGI)的又一大步。近日,顏水成教授團(tuán)隊(duì)聯(lián)合發(fā)布并開(kāi)源了Vitron通用像素級(jí)視覺(jué)多模態(tài)大語(yǔ)言模型。項(xiàng)目主頁(yè)&Demo:https://vitron-llm.github.io/
論文鏈接:https://is.gd/aGu0VV
開(kāi)源代碼:https://github.com/SkyworkAI/Vitron
這是一款重磅的通用視覺(jué)多模態(tài)大模型,支持從視覺(jué)理解到視覺(jué)生成、從低層次到高層次的一系列視覺(jué)任務(wù),解決了困擾大語(yǔ)言模型產(chǎn)業(yè)已久的圖像/視頻模型割裂問(wèn)題,提供了一個(gè)全面統(tǒng)一靜態(tài)圖像與動(dòng)態(tài)視頻內(nèi)容的理解、生成、分割、編輯等任務(wù)的像素級(jí)通用視覺(jué)多模態(tài)大模型,為下一代通用視覺(jué)大模型的終極形態(tài)奠定了基礎(chǔ),也標(biāo)志著大模型邁向通用人工智能(AGI)的又一大步。
Vitron作為一個(gè)統(tǒng)一的像素級(jí)視覺(jué)多模態(tài)大語(yǔ)言模型,實(shí)現(xiàn)了從低層次到高層次的視覺(jué)任務(wù)的全面支持,
原文鏈接:顏水成掛帥,奠定「通用視覺(jué)多模態(tài)大模型」終極形態(tài)!一統(tǒng)理解/生成/分割/編輯
聯(lián)系作者
文章來(lái)源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。

粵公網(wǎng)安備 44011502001135號(hào)