多模態(tài)大模型學雜了能力反下降?新研究:MoE+通用專家解決沖突

AIGC動態(tài)歡迎閱讀
原標題:多模態(tài)大模型學雜了能力反下降?新研究:MoE+通用專家解決沖突
關(guān)鍵字:華為,任務,模型,專家,指令
文章來源:量子位
內(nèi)容字數(shù):4906字
內(nèi)容摘要:
港科大&南科大&華為諾亞方舟實驗室量子位 | 公眾號 QbitAI微調(diào),能讓通用大模型更加適配具體的行業(yè)應用。
但現(xiàn)在,研究人員們卻發(fā)現(xiàn):
對多模態(tài)大模型做“多任務指令微調(diào)”,大模型可能會“學得多錯得多”,因為不同任務之間的沖突,導致泛化能力下降。
△多模態(tài)指令微調(diào)存在任務沖突舉個例子,多模態(tài)問答任務可能要求回復盡可能簡潔準確,文檔理解任務卻會反過來要求大模型盡可能詳細地做出描述。
不同下游任務指令微調(diào)數(shù)據(jù)分布差異較大,導致一個大模型難以在多個下游任務中均達到最優(yōu)性能。
如何解決這個問題?
來自香港科技大學、南方科技大學和華為諾亞方舟實驗室的聯(lián)合研究團隊,受MoE(混合專家模型)開源大模型Mixtral-8×7B的啟發(fā),提出利用稀疏專家模型,打造下游任務泛化性能更好、理解能力更強的多模態(tài)大模型。
具體細節(jié),一起來看。
多模態(tài)指令微調(diào)存在任務沖突為了驗證多模態(tài)指令微調(diào)中不同類型任務數(shù)據(jù)對模型性能的影響,研究人員將數(shù)據(jù)進行如下劃分:
VQA(視覺問答):VQAv2、OKVQA、A-OKVQA、OCRVQA,
Captioning(圖像描述):COCO Caption、Web CapFilt
原文鏈接:多模態(tài)大模型學雜了能力反下降?新研究:MoE+通用專家解決沖突
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

粵公網(wǎng)安備 44011502001135號