AIGC動態歡迎閱讀
原標題:訓練130億大模型僅3天,北大提出Chat-UniVi統一圖片和視頻理解
文章來源:機器之心
內容字數:5352字
內容摘要:機器之心專欄機器之心編輯部北京大學和中山大學等機構研究者提出了統一的視覺語言大模型 ——Chat-UniVi。通過構建圖片和視頻統一表征,該框架使得一個 LLM 能夠在圖片和視頻的混合數據下訓練,并同時完成圖片和視頻理解任務。更重要的是,該框架極大降低了視覺語言模型訓練和推理的開銷,使得在三天以內即可訓練出具有 130 億參數的通用視覺語言大模型。Chat-UniVi 模型在圖片和視頻的下游任務中都取得了卓越的性能。所有代碼、數據集和模型權重均已開源。論文地址:https://arxiv.org/pdf/2311.08046.pdfGitHub 地址:https://github.com/PKU-YuanGroup/Chat-UniViHuggingface 地址:https://huggingface.co/Chat-UniViDemo 地址:https://huggingface.co…
原文鏈接:點此閱讀原文:訓練130億大模型僅3天,北大提出Chat-UniVi統一圖片和視頻理解
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...