小紅書大模型團隊的探索與實踐：從 0 到 1 構建自研 RLHF 框架

AIGC動態1年前 (2024)發布 AI前線

AIGC動態歡迎閱讀

原標題：小紅書大模型團隊的探索與實踐：從 0 到 1 構建自研 RLHF 框架
關鍵字：模型,框架,算法,性能,階段
文章來源：AI前線
內容字數：0字

內容摘要：

采訪嘉賓 | 于子淇，小紅書資深技術專家編輯 | 冬梅
在人工智能技術的快速發展中，多模態大語言模型（MLLM）以其強大的圖文理解、創作、知識推理及指令遵循能力，成為了推動數字化轉型的重要力量。然而，如何使這些模型的輸出更加貼近人類的風格、符合人類的偏好，甚至與人類價值觀保持一致，成為了一個亟待解決的問題。為了應對這一挑戰，基于人類反饋信號的強化學習方法（RLHF）應運而生，其中，PPO（Proximal Policy Optimization）算法作為 OpenAI 的核心技術，在 RLHF 階段扮演著關鍵角色。
小紅書大模型團隊，在這個技術日新月異的時代，開始了他們自研 MLLM RLHF 訓練框架的征程。他們深知，要構建一個高效、準確的 RLHF 訓練系統，需要綜合考慮算法優化、系統架構、訓練調度以及推理引擎等多個方面。在本次 QCon 上海 2024 大會上，小紅書團隊的資深技術專家于子淇展示了他們的在 RLHF 框架上的探索、設計和優化細節。同時，他也分享了未來的計劃與實踐中的痛點，如 RLHF PPO 算法的資源消耗復雜度過高、訓練精度的敏感性等，這些問題既是挑戰，也

原文鏈接：小紅書大模型團隊的探索與實踐：從 0 到 1 構建自研 RLHF 框架