AIGC動態歡迎閱讀
原標題:Meta新研究挑戰CV領域基操:ViT根本不用patch,用像素做token效果更佳
關鍵字:模型,局部性,報告,圖像,偏差
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:喬楊
【新智元導讀】下一代視覺模型會摒棄patch嗎?Meta AI最近發表的一篇論文就質疑了視覺模型中局部關系的必要性。他們提出了PiT架構,讓Transformer直接學習單個像素而不是16×16的patch,結果在多個下游任務中取得了全面超越ViT模型的性能。正如token是文本處理的基本單位,patch也被默認是計算機視覺領域處理圖像的基本單位。
從CNN誕生,到結合Transformer架構的ViT,雖然模型架構發生了很大的變化,但有一點始終一致——
研究人員們都會把原始圖像先進行切割,模型輸入以patch作為基本單位。這種預處理方法非常有效,因此有廣泛的影響力,幾乎主導了整個CV領域。甚至于,Sora等視頻生成模型也沿用了這種方法。
Sora技術報告,訓練時將視覺數據切割為patch
然而,Meta AI和阿姆斯特丹大學最近聯合發表了一篇文章,對這個CV領域的「基操」提出了有理有據的質疑:圖像切成patch,真的有必要嗎?
https://arxiv.org/abs/2406.09415
首先我們可以做一個思維實驗,將圖片切成patch,究竟會對模型的哪方
原文鏈接:Meta新研究挑戰CV領域基操:ViT根本不用patch,用像素做token效果更佳
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...