紫東太初 – 多模態大模型
紫東太初 – 多模態大模型官網
全球首個多模態圖文音預訓練模型
網站服務:標題摘要,海報創作,視頻配音,語音播報。
紫東太初多模態大模型
“紫東太初”跨模態通用人工智能平臺是由中國科學院自動化研究所研發的以多模態大模型為核心、基于全棧國產化基礎軟硬件平臺,可支撐全場景AI應用。依托面向超大規模的高效分布式訓練框架,自動化所構建了具有業界領先性能的中文預訓練模型、語音預訓練模型、視覺預訓練模型,并開拓性地通過跨模態語義關聯實現了視覺-文本-語音三模態統一表示,構建了三模態預訓練大模型,賦予跨模態通用人工智能平臺多種核心能力。“紫東太初”兼具跨模態理解和生成能力,具有了在無監督情況下多任務聯合學習、并快速遷移到不同領域數據的強大能力。對更廣泛、更多樣的下游任務提供模型基礎支撐,達成AI在如視頻配音、語音播報、標題摘要、海報創作等更多元場景的應用。特色:
- 全球首個多模態圖文音預訓練模型
- 多層次多任務自監督學習
- 弱關聯多模態數據語義統一表達
- 兼顧任務感知和推理增強的中文預訓練模型
- 多粒度學習與注意力指導的視覺預訓練模型
- 基于自監督預訓練的多任務語音建模技術
中文預訓練模型
文本預訓練模型使用條件語言模型作為自監督目標進行訓練,和GPT一樣,模型根據上文來預測當前詞匯,最終訓練得到的模型可以生成流暢的中文表達。本次開源的中文文本預訓練模型由40層Transformer組成,隱層維度2560,包含32個注意力頭,共32億參數。訓練語料豐富多樣,包括新聞、百科、散文等,文本生成能力強大。中文預訓練模型基礎上還可以進行微調操作,充分利用少量有監督數據增強模型在下游任務上的表現,如文本分類,對話生成、古詩創作等;除此之外,中文預訓練模型還能夠實現簡單的少樣本學習,如下圖所示,輸入已知的部分樣例,模型能夠捕捉類似的規律進行文本生成。
安裝與使用
具體安裝步驟請參見text.
視覺預訓練模型
模型介紹
現有的掩碼語言模型的隨機遮蔽方式容易對圖像中重要的前景目標遮蔽,讓模型產生誤解,不利于快速收斂。然而,在無監督的情況下,如何自適應的調整遮蔽區域是一個非常關鍵的難點問題。為此,我們巧妙的利用Transformer中的自注意力機制,并且設計了一種動態掩碼機制來對圖像進行預訓練。具體來說,我們的視覺動態掩碼機制采用teacher網絡中最后的自注意力圖作為指導,以一定的概率選擇響應較低的區域對student網絡的輸入進行動態遮蔽Attn=1H∑Hh=1Softmax(Qclsh?KThd√)????=1?∑?=1????????(??????????)mi=?????????????1,andAtteni<τ0,probi<potherwise??={1,?????<??????????<?0,?????????相比BERT中MLM的隨機遮蔽方式,動態遮蔽方式避免了破壞圖像/目標的關鍵結構,而這些關鍵結構的遮蔽往往使得訓練中的模型產生誤解,降低預訓練模型的關注度。下圖展示了我們的動態掩碼與隨機掩碼的區別,可以看出,通過動態掩碼的方式,圖像中目標的完整結構得以保留。進一步,被遮蔽的局部塊與剩余的局部塊一起送入全局圖像解碼器,以恢復圖像的完整結構。最后,我們的損失函數為對比損失+圖像重建損失,兩種損失都采用自監督的方式進行學習,并結合動態掩碼機制,顯示捕捉圖像局部上下文信息并保留全圖語義信息。圖像解碼器部分采用經典的特征金字塔結構,完美保留圖像空間信息,因此對下游密集預測任務更加友好,無縫支持下游目標檢測、語義分割任務的微調。
紫東太初 – 多模態大模型網址入口
https://gitee.com/zidongtaichu/multi-modal-models
OpenI小編發現紫東太初 – 多模態大模型網站非常受用戶歡迎,請訪問紫東太初 – 多模態大模型網址入口試用。
數據評估
本站OpenI提供的紫東太初 – 多模態大模型都來源于網絡,不保證外部鏈接的準確性和完整性,同時,對于該外部鏈接的指向,不由OpenI實際控制,在2023年 9月 23日 上午9:01收錄時,該網頁上的內容,都屬于合規合法,后期網頁的內容如出現違規,可以直接聯系網站管理員進行刪除,OpenI不承擔任何責任。