在線教程 | 打敗 GPT-4V?超強(qiáng)開源多模態(tài)大模型 LLaVA-OneVision 正式上線!
AIGC動態(tài)歡迎閱讀
原標(biāo)題:在線教程 | 打敗 GPT-4V?超強(qiáng)開源多模態(tài)大模型 LLaVA-OneVision 正式上線!
關(guān)鍵字:商標(biāo),字節(jié)跳動,模型,視頻,員
文章來源:HyperAI超神經(jīng)
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
HyperAI超神經(jīng)教程版塊現(xiàn)已上線「LLaVA-OneVision 多模態(tài)全能視覺模型 Demo」,快來體驗(yàn)吧!大語言模型(Large Language Model,簡稱 LLM)與多模態(tài)大模型(Large Multimodal Model,簡稱 LMM)是人工智能領(lǐng)域的兩個核心發(fā)展方向。LLM 主要致力于處理和生成文本數(shù)據(jù),而 LMM 則更進(jìn)一步,它旨在整合和理解包括文本、圖片、視頻在內(nèi)的多種數(shù)據(jù)類型。如今,LLM 已經(jīng)相對成熟,ChatGPT 等在文字理解方面已經(jīng)「對答如流」,人們開始將目光轉(zhuǎn)移到多模態(tài)數(shù)據(jù)的理解上,令模型能夠「讀圖、看視頻」。
近期,來自字節(jié)跳動、南洋理工大學(xué)、香港中文大學(xué)和香港科技大學(xué)的研究人員共同開源了 LLaVA-OneVision 多模態(tài)大模型,該模型在單圖像、多圖像和視頻任務(wù)中均展現(xiàn)出了卓越的性能。專為多模態(tài)大型模型設(shè)計的評估框架 LMMs-Eval 中顯示,LLaVA-OneVision-72B 在大多數(shù)基準(zhǔn)上優(yōu)于 GPT-4V 和 GPT-4o,如下圖所示:LLaVA-OneVision 在視頻基準(zhǔn)測試中的性能表現(xiàn)LLaVA-OneVision 在
原文鏈接:在線教程 | 打敗 GPT-4V?超強(qiáng)開源多模態(tài)大模型 LLaVA-OneVision 正式上線!
聯(lián)系作者
文章來源:HyperAI超神經(jīng)
作者微信:
作者簡介: