北大最新多模態(tài)大模型開源:在混合數(shù)據(jù)集上訓(xùn)練,無需修改直接用到圖像視頻任務(wù)
AIGC動態(tài)歡迎閱讀
原標(biāo)題:北大最新多模態(tài)大模型開源:在混合數(shù)據(jù)集上訓(xùn)練,無需修改直接用到圖像視頻任務(wù)
文章來源:量子位
內(nèi)容字?jǐn)?shù):5682字
內(nèi)容摘要:一個(gè)北大投稿 發(fā)送至 凹非寺量子位 | 公眾號 QbitAI訓(xùn)完130億參數(shù)通用視覺語言大模型,只需3天!北大和中山大學(xué)團(tuán)隊(duì)又出招了——在最新研究中,研究團(tuán)隊(duì)提出了一種構(gòu)建統(tǒng)一的圖片和視頻表征的框架。利用這種框架,可以大大減少VLM(視覺語言大模型)在訓(xùn)練和推理過程中的開銷。具體而言,團(tuán)隊(duì)按照提出的新框架,訓(xùn)練了一個(gè)新的VLM:Chat-UniVi。Chat-UniVi能在混合圖片和視頻數(shù)據(jù)的情況下進(jìn)行訓(xùn)練,并同時(shí)處理圖片任務(wù)和視頻理解任務(wù)。以此為基礎(chǔ),Chat-UniVi在圖片及視頻上的17個(gè)基準(zhǔn)上,都表現(xiàn)得還不錯(cuò)。現(xiàn)在,項(xiàng)目已經(jīng)在GitHub和抱抱臉上開源。更多關(guān)于新方法和Chat-UniVi的詳細(xì)信息,我們一起進(jìn)一步來看看~Chat-UniVi是什么?了解基礎(chǔ)信息后,我們詳細(xì)地聊聊Chat-UniVi究竟是什么——簡單來說,Chat-UniVi是一個(gè)統(tǒng)一的多模態(tài)大型語言模型,可以同時(shí)…
原文鏈接:點(diǎn)此閱讀原文:北大最新多模態(tài)大模型開源:在混合數(shù)據(jù)集上訓(xùn)練,無需修改直接用到圖像視頻任務(wù)
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破