<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        多模態大模型對齊新范式,10個評估維度全面提升,快手&中科院&南大打破瓶頸

        AIGC動態6個月前發布 量子位
        311 0 0

        MM-RLHF,數據算法模型Pipline全開源

        多模態大模型對齊新范式,10個評估維度全面提升,快手&中科院&南大打破瓶頸

        原標題:多模態大模型對齊新范式,10個評估維度全面提升,快手&中科院&南大打破瓶頸
        文章來源:量子位
        內容字數:8610字

        快手、中科院、南大合作:MM-RLHF,多模態大模型對齊的“游戲規則改變者”

        近年來,多模態大語言模型(MLLMs)發展迅速,但其與人類偏好的對齊度仍有待提高。現有研究多集中于特定領域,例如減少幻覺,對MLLMs整體能力提升的影響尚不明確??焓?、中科院和南大合作團隊提出的MM-RLHF框架,旨在從數據集、獎勵模型和訓練算法三個層面推動MLLM對齊發展,取得了顯著成果,并在Twitter上引發熱議,被譽為多模態對齊領域的“游戲規則改變者”。

        1. MM-RLHF 的主要貢獻

        MM-RLHF 的主要貢獻體現在以下幾個方面:

        1. 高質量偏好數據集:構建了一個包含120k個精細標注的偏好比較對數據集,由50名標注人員和8名專家耗時兩個月完成。該數據集在規模、多樣性、標注粒度和質量方面均有顯著提升,包含有用性、真實性和倫理性三個維度的打分,以及排序和原因描述等信息。
        2. 基于批評的獎勵模型:提出了一種創新的基于批評的獎勵模型 (Critique-Based Reward Model),該模型先對模型輸出進行批評,再進行評分,相比傳統的標量獎勵機制,具有更好的可解釋性和信息量。一個7B參數的模型,其性能就超越了現有的72B參數的MLLM。
        3. 動態獎勵縮放:提出動態獎勵縮放 (Dynamic Reward Scaling) 方法,根據獎勵信號調整每個樣本的損失權重,提高了高質量比較對的使用效率。
        4. 全面評估:在10個維度、27個基準上進行了嚴格評估,其中包括自建的安全性基準 MM-RLHF-SafeBench,結果顯示在各個方面均取得了顯著且一致的性能提升。例如,LLaVA-ov-7B模型的會話能力平均提升了19.5%,安全性平均提升了60%。

        2. 數據集構建與標注

        該數據集的數據來源廣泛,包括LLaVA-OV、VLfeedback等,涵蓋圖像和視頻數據。數據過濾和模型響應生成采用多選題、長文本等類別均勻采樣和knn聚類策略,保證數據的多樣性。標注包含有用性、真實性和倫理性三個維度,并要求標注人員提供打分依據和排名依據,保證標注質量。

        3. 獎勵模型及訓練算法

        傳統的獎勵模型難以充分利用人類注釋信息,MM-RLHF提出的基于批評的獎勵模型則彌補了這一缺陷。通過GPT-4o增強人工注釋,提高批評質量。在訓練過程中,批評的生成與獎勵頭的訓練同時進行,采用teacher-forcing策略。動態獎勵縮放 (MM-DPO) 方法則有效利用高質量偏好數據,優先利用高置信度的樣本對。

        4. 實驗結果與分析

        實驗結果表明,MM-RLHF在各個評估維度上都取得了顯著的性能提升,尤其在會話能力和安全性方面提升最為明顯。不同模型在對齊過程中表現出不同的性能趨勢,需要根據具體模型進行超參數定制化調整。此外,研究還發現小規模MLLMs(參數少于7B)通過自我提升實現全面性能提升面臨挑戰,這主要由于模型容量限制和獎勵信號質量的局限性。

        5. 未來研究方向

        未來研究將重點關注利用數據集的豐富注釋粒度信息,結合先進的優化技術和高分辨率數據,并使用半自動化策略高效地擴展數據集,以進一步提升MLLM的對齊水平,并為更廣泛的多模態學習框架奠定基礎。


        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: www.亚洲精品.com| 成人免费视频一区二区三区| 亚洲成A人片77777国产| 亚洲日韩精品A∨片无码加勒比| 又粗又大又猛又爽免费视频| 国产亚洲精aa在线看| 欧美a级在线现免费观看| 亚洲中文字幕无码亚洲成A人片 | 亚洲一区二区三区四区视频| 亚洲一区二区免费视频| 亚洲av乱码一区二区三区香蕉 | 一个人晚上在线观看的免费视频| 亚洲AV无码一区二三区| 国产黄片不卡免费| 亚洲精品白浆高清久久久久久| 亚洲第一精品电影网| 国产电影午夜成年免费视频| 亚洲永久在线观看| 免费A级毛片无码视频| 久久久无码精品亚洲日韩京东传媒| 91av视频免费在线观看| 精品亚洲国产成人| 日本a级片免费看| 西西人体44rt高清亚洲| 免费看片在线观看| 久久久久亚洲国产AV麻豆| 亚洲精品高清一二区久久| 久久久久亚洲精品无码网址色欲| 亚洲无码精品浪潮| 久久99国产综合精品免费| 亚洲久热无码av中文字幕| 国产乱辈通伦影片在线播放亚洲| 亚在线观看免费视频入口| 亚洲欧美一区二区三区日产| 亚洲国产成人精品91久久久| 1a级毛片免费观看| 亚洲综合精品香蕉久久网97| 久久国产免费观看精品| 亚洲国产另类久久久精品| 三年片在线观看免费观看高清电影| 最好2018中文免费视频|