拋棄視覺編碼器,這個(gè)「原生版」多模態(tài)大模型也能媲美主流方法
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:拋棄視覺編碼器,這個(gè)「原生版」多模態(tài)大模型也能媲美主流方法
關(guān)鍵字:模型,視覺,編碼器,語(yǔ)言,數(shù)據(jù)
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com一作刁海文,是大連理工大學(xué)博士生,導(dǎo)師是盧湖川教授。目前在北京智源人工智能研究院實(shí)習(xí),指導(dǎo)老師是王鑫龍博士。他的研究興趣是視覺與語(yǔ)言,大模型高效遷移,多模態(tài)大模型等。共同一作崔玉峰,畢業(yè)于北京航空航天大學(xué),是北京智源人工智能研究院視覺中心算法研究員。他的研究興趣是多模態(tài)模型、生成模型和計(jì)算機(jī)視覺,主要工作有 Emu 系列。
近期,關(guān)于多模態(tài)大模型的研究如火如荼,工業(yè)界對(duì)此的投入也越來越多。國(guó)外相繼推出了炙手可熱的模型,例如 GPT-4o (OpenAI)、Gemini(Google)、Phi-3V (Microsoft)、Claude-3V(Anthropic),以及 Grok-1.5V(xAI)等。與此同時(shí),國(guó)內(nèi)的 GLM-4V(智譜 AI)、Step-1.
原文鏈接:拋棄視覺編碼器,這個(gè)「原生版」多模態(tài)大模型也能媲美主流方法
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)