MM-RLHF,數據算法模型Pipline全開源
原標題:多模態大模型對齊新范式,10個評估維度全面提升,快手&中科院&南大打破瓶頸
文章來源:量子位
內容字數:8610字
快手、中科院、南大合作:MM-RLHF,多模態大模型對齊的“游戲規則改變者”
近年來,多模態大語言模型(MLLMs)發展迅速,但其與人類偏好的對齊度仍有待提高。現有研究多集中于特定領域,例如減少幻覺,對MLLMs整體能力提升的影響尚不明確??焓?、中科院和南大合作團隊提出的MM-RLHF框架,旨在從數據集、獎勵模型和訓練算法三個層面推動MLLM對齊發展,取得了顯著成果,并在Twitter上引發熱議,被譽為多模態對齊領域的“游戲規則改變者”。
1. MM-RLHF 的主要貢獻
MM-RLHF 的主要貢獻體現在以下幾個方面:
- 高質量偏好數據集:構建了一個包含120k個精細標注的偏好比較對數據集,由50名標注人員和8名專家耗時兩個月完成。該數據集在規模、多樣性、標注粒度和質量方面均有顯著提升,包含有用性、真實性和倫理性三個維度的打分,以及排序和原因描述等信息。
- 基于批評的獎勵模型:提出了一種創新的基于批評的獎勵模型 (Critique-Based Reward Model),該模型先對模型輸出進行批評,再進行評分,相比傳統的標量獎勵機制,具有更好的可解釋性和信息量。一個7B參數的模型,其性能就超越了現有的72B參數的MLLM。
- 動態獎勵縮放:提出動態獎勵縮放 (Dynamic Reward Scaling) 方法,根據獎勵信號調整每個樣本的損失權重,提高了高質量比較對的使用效率。
- 全面評估:在10個維度、27個基準上進行了嚴格評估,其中包括自建的安全性基準 MM-RLHF-SafeBench,結果顯示在各個方面均取得了顯著且一致的性能提升。例如,LLaVA-ov-7B模型的會話能力平均提升了19.5%,安全性平均提升了60%。
2. 數據集構建與標注
該數據集的數據來源廣泛,包括LLaVA-OV、VLfeedback等,涵蓋圖像和視頻數據。數據過濾和模型響應生成采用多選題、長文本等類別均勻采樣和knn聚類策略,保證數據的多樣性。標注包含有用性、真實性和倫理性三個維度,并要求標注人員提供打分依據和排名依據,保證標注質量。
3. 獎勵模型及訓練算法
傳統的獎勵模型難以充分利用人類注釋信息,MM-RLHF提出的基于批評的獎勵模型則彌補了這一缺陷。通過GPT-4o增強人工注釋,提高批評質量。在訓練過程中,批評的生成與獎勵頭的訓練同時進行,采用teacher-forcing策略。動態獎勵縮放 (MM-DPO) 方法則有效利用高質量偏好數據,優先利用高置信度的樣本對。
4. 實驗結果與分析
實驗結果表明,MM-RLHF在各個評估維度上都取得了顯著的性能提升,尤其在會話能力和安全性方面提升最為明顯。不同模型在對齊過程中表現出不同的性能趨勢,需要根據具體模型進行超參數定制化調整。此外,研究還發現小規模MLLMs(參數少于7B)通過自我提升實現全面性能提升面臨挑戰,這主要由于模型容量限制和獎勵信號質量的局限性。
5. 未來研究方向
未來研究將重點關注利用數據集的豐富注釋粒度信息,結合先進的優化技術和高分辨率數據,并使用半自動化策略高效地擴展數據集,以進一步提升MLLM的對齊水平,并為更廣泛的多模態學習框架奠定基礎。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破