字節(jié)提出視覺(jué)基礎(chǔ)模型ViTamin，多項(xiàng)任務(wù)實(shí)現(xiàn)SOTA，入選CVPR2024

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布算法邦

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：字節(jié)提出視覺(jué)基礎(chǔ)模型ViTamin，多項(xiàng)任務(wù)實(shí)現(xiàn)SOTA，入選CVPR2024
關(guān)鍵字：字節(jié)跳動(dòng),模型,侵權(quán),視覺(jué),準(zhǔn)確率
文章來(lái)源：算法邦
內(nèi)容字?jǐn)?shù)：4384字

內(nèi)容摘要：

文章轉(zhuǎn)載自公眾號(hào)：量子位，本文只做學(xué)術(shù)/技術(shù)分享，如有侵權(quán)，聯(lián)系刪文。
視覺(jué)語(yǔ)言模型屢屢出現(xiàn)新突破，但ViT仍是圖像編碼器的首選網(wǎng)絡(luò)結(jié)構(gòu)。
字節(jié)提出新基礎(chǔ)模型——ViTamin，專(zhuān)為視覺(jué)語(yǔ)言時(shí)代設(shè)計(jì)。
在使用相同的數(shù)據(jù)集和訓(xùn)練方案時(shí)，ViTamin在ImageNet零樣本準(zhǔn)確率上比ViT提高了2.0%。
此外在分類(lèi)、檢索、開(kāi)放詞匯檢測(cè)和分割、多模態(tài)大語(yǔ)言模型等60個(gè)不同基準(zhǔn)上都表現(xiàn)出了良好的結(jié)果。
當(dāng)進(jìn)一步擴(kuò)展參數(shù)規(guī)模時(shí)，ViTamin-XL僅有436M參數(shù)，卻達(dá)到了82.9%的ImageNet零樣本準(zhǔn)確率，超過(guò)了擁有十倍參數(shù)（4.4B）的EVA-E。
最終這一成果，入選計(jì)算機(jī)視覺(jué)頂會(huì)CVPR2024。
01視覺(jué)語(yǔ)言時(shí)代新基準(zhǔn)在視覺(jué)語(yǔ)言時(shí)代下，如何設(shè)計(jì)一個(gè)更好可擴(kuò)展的視覺(jué)模型？
在ImageNet時(shí)代，新的視覺(jué)模型在ImageNet數(shù)據(jù)集得以驗(yàn)證，也造就了不斷有新的視覺(jué)模型涌現(xiàn)。但在視覺(jué)語(yǔ)言時(shí)代，新的視覺(jué)模型鮮為人見(jiàn)。
此外，基于現(xiàn)有常見(jiàn)視覺(jué)模型，在面對(duì)比ImageNet數(shù)據(jù)規(guī)模還大的情況下表現(xiàn)又是如何？研究團(tuán)隊(duì)們測(cè)試了幾種常見(jiàn)模型，包括純Transformer的ViT，純卷積網(wǎng)絡(luò)的C

原文鏈接：字節(jié)提出視覺(jué)基礎(chǔ)模型ViTamin，多項(xiàng)任務(wù)實(shí)現(xiàn)SOTA，入選CVPR2024

聯(lián)系作者

文章來(lái)源：算法邦
作者微信：allplusai
作者簡(jiǎn)介：智猩猩矩陣賬號(hào)之一，聚焦生成式AI，重點(diǎn)關(guān)注模型與應(yīng)用。

閱讀原文

# AIGC動(dòng)態(tài)# 侵權(quán)# 準(zhǔn)確率 # 字節(jié)跳動(dòng)# 模型 # 視覺(jué)

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無(wú)評(píng)論

暫無(wú)評(píng)論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

字節(jié)提出視覺(jué)基礎(chǔ)模型ViTamin，多項(xiàng)任務(wù)實(shí)現(xiàn)SOTA，入選CVPR2024

AIGC動(dòng)態(tài)歡迎閱讀

內(nèi)容摘要：

聯(lián)系作者

斯坦福前校長(zhǎng)當(dāng)CEO，AI制藥初創(chuàng)公司獲10億美元投資；英國(guó)AI制藥企業(yè)再度裁員30%；首個(gè)AI基因編輯器宣布開(kāi)源

超級(jí)智能體生命力覺(jué)醒！可自我更新的AI來(lái)了，媽媽再也不用擔(dān)心數(shù)據(jù)瓶頸難題

相關(guān)文章

暫無(wú)評(píng)論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

字節(jié)提出視覺(jué)基礎(chǔ)模型ViTamin，多項(xiàng)任務(wù)實(shí)現(xiàn)SOTA，入選CVPR2024

AIGC動(dòng)態(tài)歡迎閱讀

內(nèi)容摘要：

聯(lián)系作者

斯坦福前校長(zhǎng)當(dāng)CEO，AI制藥初創(chuàng)公司獲10億美元投資；英國(guó)AI制藥企業(yè)再度裁員30%；首個(gè)AI基因編輯器宣布開(kāi)源

超級(jí)智能體生命力覺(jué)醒！可自我更新的AI來(lái)了，媽媽再也不用擔(dān)心數(shù)據(jù)瓶頸難題

相關(guān)文章

暫無(wú)評(píng)論

ChatGPT

玩虛擬模特？

斯坦福前校長(zhǎng)當(dāng)CEO，AI制藥初創(chuàng)公司獲10億美元投資；英國(guó)AI制藥企業(yè)再度裁員30%；首個(gè)AI基因編輯器宣布開(kāi)源

超級(jí)智能體生命力覺(jué)醒！可自我更新的AI來(lái)了，媽媽再也不用擔(dān)心數(shù)據(jù)瓶頸難題

玩虛擬模特？