AIGC動態歡迎閱讀
原標題:字節豆包全新圖像Tokenizer:生成圖像最低只需32個token,最高提速410倍
關鍵字:字節跳動,圖像,豆包,模型,分辨率
文章來源:機器之心
內容字數:0字
內容摘要:
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在生成式模型的迅速發展中,Image Tokenization 扮演著一個很重要的角色,例如Diffusion依賴的VAE或者是Transformer依賴的VQGAN。這些Tokenizers會將圖像編碼至一個更為緊湊的隱空間(latent space),使得生成高分辨率圖像更有效率。
然而,現有的Tokenizer通常會將輸入圖像映射為隱空間的一個降采樣后的2D矩陣,這一設計隱式的限制了token與圖像之間的映射關系,導致其很難有效的利用圖像中的冗余信息(比如相鄰的區域經常會有類似的特征)來獲得一個更加有效的圖像編碼。
為了解決這一問題,字節跳動豆包大模型團隊和慕尼黑工業大學提出了全新的1D圖像Tokenizer:TiTok,這一Tokenizer打破了2D
原文鏈接:字節豆包全新圖像Tokenizer:生成圖像最低只需32個token,最高提速410倍
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...