訓(xùn)練130億大模型僅3天,北大提出Chat-UniVi統(tǒng)一圖片和視頻理解
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:訓(xùn)練130億大模型僅3天,北大提出Chat-UniVi統(tǒng)一圖片和視頻理解
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):5352字
內(nèi)容摘要:機(jī)器之心專欄機(jī)器之心編輯部北京大學(xué)和中山大學(xué)等機(jī)構(gòu)研究者提出了統(tǒng)一的視覺語言大模型 ——Chat-UniVi。通過構(gòu)建圖片和視頻統(tǒng)一表征,該框架使得一個(gè) LLM 能夠在圖片和視頻的混合數(shù)據(jù)下訓(xùn)練,并同時(shí)完成圖片和視頻理解任務(wù)。更重要的是,該框架極大降低了視覺語言模型訓(xùn)練和推理的開銷,使得在三天以內(nèi)即可訓(xùn)練出具有 130 億參數(shù)的通用視覺語言大模型。Chat-UniVi 模型在圖片和視頻的下游任務(wù)中都取得了卓越的性能。所有代碼、數(shù)據(jù)集和模型權(quán)重均已開源。論文地址:https://arxiv.org/pdf/2311.08046.pdfGitHub 地址:https://github.com/PKU-YuanGroup/Chat-UniViHuggingface 地址:https://huggingface.co/Chat-UniViDemo 地址:https://huggingface.co…
原文鏈接:點(diǎn)此閱讀原文:訓(xùn)練130億大模型僅3天,北大提出Chat-UniVi統(tǒng)一圖片和視頻理解
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)