大模型+多模態(tài)的3種實(shí)現(xiàn)方法|文末贈書

AIGC動態(tài)歡迎閱讀
原標(biāo)題:大模型+多模態(tài)的3種實(shí)現(xiàn)方法|文末贈書
關(guān)鍵字:模型,圖像,步驟,任務(wù),數(shù)據(jù)
文章來源:AI前線
內(nèi)容字?jǐn)?shù):5975字
內(nèi)容摘要:我們知道,預(yù)訓(xùn)練LLM已經(jīng)取得了諸多驚人的成就, 然而其明顯的劣勢是不支持其他模態(tài)(包括圖像、語音、視頻模態(tài))的輸入和輸出,那么如何在預(yù)訓(xùn)練LLM的基礎(chǔ)上引入跨模態(tài)的信息,讓其變得更強(qiáng)大、更通用呢?本節(jié)將介紹“大模型+多模態(tài)”的3種實(shí)現(xiàn)方法。01以LLM為核心,調(diào)用其他多模態(tài)組件2023年5月,微軟亞洲研究院(MSRA)聯(lián)合浙江大學(xué)發(fā)布了HuggingGPT框架,該框架能夠以LLM為核心,調(diào)用其他的多模態(tài)組件來合作完成復(fù)雜的AI任務(wù)(更多細(xì)節(jié)可參見Yongliang Shen等人發(fā)表的論文“HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace”)。HuggingGPT框架的原理示意圖如圖1所示。下面根據(jù)論文中提到的示例來一步一步地拆解 HuggingGPT框架的執(zhí)行過程。圖1假如現(xiàn)在你要執(zhí)行這樣一個…
原文鏈接:點(diǎn)此閱讀原文:大模型+多模態(tài)的3種實(shí)現(xiàn)方法|文末贈書
聯(lián)系作者
文章來源:AI前線
作者微信:ai-front
作者簡介:面向AI愛好者、開發(fā)者和科學(xué)家,提供AI領(lǐng)域技術(shù)資訊、一線業(yè)界實(shí)踐案例、搜羅整理業(yè)界技術(shù)分享干貨、AI論文解讀。每周一節(jié)技術(shù)分享公開課,助力你全面擁抱人工智能技術(shù)。

粵公網(wǎng)安備 44011502001135號