多模態大模型對齊新范式，10個評估維度全面提升，快手&中科院&南大打破瓶頸

MM-RLHF，數據算法模型Pipline全開源

原標題：多模態大模型對齊新范式，10個評估維度全面提升，快手&中科院&南大打破瓶頸
文章來源：量子位
內容字數：8610字

快手、中科院、南大合作：MM-RLHF，多模態大模型對齊的“游戲規則改變者”

近年來，多模態大語言模型（MLLMs）發展迅速，但其與人類偏好的對齊度仍有待提高。現有研究多集中于特定領域，例如減少幻覺，對MLLMs整體能力提升的影響尚不明確。快手、中科院和南大合作團隊提出的MM-RLHF框架，旨在從數據集、獎勵模型和訓練算法三個層面推動MLLM對齊發展，取得了顯著成果，并在Twitter上引發熱議，被譽為多模態對齊領域的“游戲規則改變者”。

1. MM-RLHF 的主要貢獻

MM-RLHF 的主要貢獻體現在以下幾個方面：

高質量偏好數據集：構建了一個包含120k個精細標注的偏好比較對數據集，由50名標注人員和8名專家耗時兩個月完成。該數據集在規模、多樣性、標注粒度和質量方面均有顯著提升，包含有用性、真實性和倫理性三個維度的打分，以及排序和原因描述等信息。
基于批評的獎勵模型：提出了一種創新的基于批評的獎勵模型 (Critique-Based Reward Model)，該模型先對模型輸出進行批評，再進行評分，相比傳統的標量獎勵機制，具有更好的可解釋性和信息量。一個7B參數的模型，其性能就超越了現有的72B參數的MLLM。
動態獎勵縮放：提出動態獎勵縮放 (Dynamic Reward Scaling) 方法，根據獎勵信號調整每個樣本的損失權重，提高了高質量比較對的使用效率。
全面評估：在10個維度、27個基準上進行了嚴格評估，其中包括自建的安全性基準 MM-RLHF-SafeBench，結果顯示在各個方面均取得了顯著且一致的性能提升。例如，LLaVA-ov-7B模型的會話能力平均提升了19.5%，安全性平均提升了60%。

2. 數據集構建與標注

該數據集的數據來源廣泛，包括LLaVA-OV、VLfeedback等，涵蓋圖像和視頻數據。數據過濾和模型響應生成采用多選題、長文本等類別均勻采樣和knn聚類策略，保證數據的多樣性。標注包含有用性、真實性和倫理性三個維度，并要求標注人員提供打分依據和排名依據，保證標注質量。

3. 獎勵模型及訓練算法

傳統的獎勵模型難以充分利用人類注釋信息，MM-RLHF提出的基于批評的獎勵模型則彌補了這一缺陷。通過GPT-4o增強人工注釋，提高批評質量。在訓練過程中，批評的生成與獎勵頭的訓練同時進行，采用teacher-forcing策略。動態獎勵縮放 (MM-DPO) 方法則有效利用高質量偏好數據，優先利用高置信度的樣本對。

4. 實驗結果與分析

實驗結果表明，MM-RLHF在各個評估維度上都取得了顯著的性能提升，尤其在會話能力和安全性方面提升最為明顯。不同模型在對齊過程中表現出不同的性能趨勢，需要根據具體模型進行超參數定制化調整。此外，研究還發現小規模MLLMs（參數少于7B）通過自我提升實現全面性能提升面臨挑戰，這主要由于模型容量限制和獎勵信號質量的局限性。

5. 未來研究方向

未來研究將重點關注利用數據集的豐富注釋粒度信息，結合先進的優化技術和高分辨率數據，并使用半自動化策略高效地擴展數據集，以進一步提升MLLM的對齊水平，并為更廣泛的多模態學習框架奠定基礎。

聯系作者

文章來源：量子位
作者微信：
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

閱讀原文

# AIGC動態 # AI模型瓶頸突破 # 多模態大模型對齊 # 大模型評估維度 # 快手AI # 跨模態學習

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

多模態大模型對齊新范式，10個評估維度全面提升，快手&中科院&南大打破瓶頸

MM-RLHF，數據算法模型Pipline全開源

快手、中科院、南大合作：MM-RLHF，多模態大模型對齊的“游戲規則改變者”

1. MM-RLHF 的主要貢獻

2. 數據集構建與標注

3. 獎勵模型及訓練算法

4. 實驗結果與分析

5. 未來研究方向

聯系作者

今晚8點！超強解析Evo2基因組語言模型

500萬TPM+20msTPOT，火山引擎用「AI云原生」重構大模型部署范式

相關文章

暫無評論

ChatGPT

玩虛擬模特？