Meta發布多模態模型Chameleon:34B、類GPT-4o、性能接近GPT-4V
AIGC動態歡迎閱讀
原標題:Meta發布多模態模型Chameleon:34B、類GPT-4o、性能接近GPT-4V
關鍵字:模型,圖像,報告,文本,分詞
文章來源:Founder Park
內容字數:8311字
內容摘要:
GPT-4o 的橫空出世,再次創立了一個多模態模型發展的新范式。OpenAI 將其稱為「首個『原生』多模態」模型,意味著 GPT-4o 與以往所有的模型,都不盡相同。傳統的多模態基礎模型,通常為每種模態采用特定的「編碼器」或「解碼器」,將不同的模態分離開。
然而,這種方法限制了模型,有效融合跨模態信息的能力。官博介紹,GPT-4o 是「首個端到端」訓練的,跨越文本、視覺和音頻的模型,所有的輸入和輸出,都由單個神經網絡處理。
而現在,業界首個敢于挑戰 GPT-4o 的模型現身了。
最近,來自 Meta 團隊的研究人員發布了「混合模態基座模型」——Chameleon(變色龍)。
論文地址:https://arxiv.org/pdf/2405.09818
與 GPT-4o 一樣,Chameleon 采用了統一的 Transformer 架構,使用文本、圖像和代碼混合模態完成訓練。以類似文本生成的方式,對圖像進行離散「分詞化」(tokenization),最終生成和推理交錯的文本和圖像序列。
這種「早期融合」的方法,所有的 pipeline 從一開始就被映射到一個共同的表示空間,因此模型可以無
原文鏈接:Meta發布多模態模型Chameleon:34B、類GPT-4o、性能接近GPT-4V
聯系作者
文章來源:Founder Park
作者微信:Founder-Park
作者簡介:來自極客公園,專注與科技創業者聊「真問題」。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...