跨越邊界:解密多模態(tài)大模型的對齊策略與創(chuàng)新潛力
探索不同的對齊方法對MLLMs性能的影響~

原標(biāo)題:ICLR 高分:深入研究多模態(tài)大模型的對齊策略
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):9223字
2024中國生成式AI大會(huì)(上海站)預(yù)告
2024中國生成式AI大會(huì)將于12月5-6日在上海舉辦,由智猩猩聯(lián)合主辦。大會(huì)將設(shè)主會(huì)場和分會(huì)場,主會(huì)場將進(jìn)行大模型峰會(huì)和AI Infra峰會(huì),分會(huì)場則將舉行針對端側(cè)生成式AI、AI視頻生成和具身智能的技術(shù)研討會(huì),歡迎各界人士報(bào)名參加。
多模態(tài)大模型(MLLMs)研究背景
多模態(tài)大模型在視覺與語言理解任務(wù)上取得了顯著進(jìn)展,但仍面臨“幻覺”現(xiàn)象,即生成的描述可能不符合視覺內(nèi)容。為了解決這一問題,研究人員提出了偏好對齊(preference alignment)方法來增強(qiáng)模型與圖像內(nèi)容的契合度。
研究主要貢獻(xiàn)
- 對齊方法分類:將偏好對齊方法分為離線方法(如DPO)和在線方法(如在線DPO),并探討了結(jié)合兩者的優(yōu)勢。
- 偏好數(shù)據(jù)集分析:回顧并分析了多種已發(fā)布的偏好數(shù)據(jù)集,探討其構(gòu)建細(xì)節(jié)對模型表現(xiàn)的影響。
- 新偏好數(shù)據(jù)采樣方法:提出“偏差驅(qū)動(dòng)幻覺采樣”(BDHS),無需額外人工標(biāo)注,依靠偏差驅(qū)動(dòng)的采樣生成對齊數(shù)據(jù)。
- 系統(tǒng)化實(shí)驗(yàn)驗(yàn)證:在多個(gè)基準(zhǔn)任務(wù)上驗(yàn)證BDHS的有效性,展示其在減少幻覺現(xiàn)象方面的優(yōu)勢。
技術(shù)細(xì)節(jié)與實(shí)驗(yàn)發(fā)現(xiàn)
多模態(tài)偏好數(shù)據(jù)由提示語、優(yōu)選響應(yīng)和拒絕響應(yīng)組成。研究表明,使用多樣化的提示和選定響應(yīng)能顯著提升對齊效果。同時(shí),BDHS方法通過注意力屏蔽的方式誘導(dǎo)模型產(chǎn)生幻覺響應(yīng),并進(jìn)行語義相似度檢測以確保響應(yīng)質(zhì)量。實(shí)驗(yàn)結(jié)果顯示,離線DPO在減少幻覺方面表現(xiàn)尤為突出,而混合DPO則結(jié)合了在線和離線方法的優(yōu)勢。另外,使用強(qiáng)標(biāo)注器能提升模型的對齊質(zhì)量。
結(jié)論與未來展望
本研究探討了偏好對齊在提升MLLM性能方面的作用,并提出新型偏好數(shù)據(jù)集和BDHS采樣策略。雖然當(dāng)前研究已揭示了一些關(guān)鍵進(jìn)展與挑戰(zhàn),但在LLM和MLLM之間仍存在顯著差距。未來的研究應(yīng)進(jìn)一步探索在線對齊方法以及幻覺基準(zhǔn)的開發(fā),助力該領(lǐng)域的持續(xù)發(fā)展。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號(hào)之一,深入關(guān)注大模型與AI智能體,及時(shí)搜羅生成式AI技術(shù)產(chǎn)品。

粵公網(wǎng)安備 44011502001135號(hào)