ICLR 2024 | RLHF有了通用平臺和基準，天大開源，專攻現(xiàn)實決策場景

AIGC動態(tài)2年前 (2024)發(fā)布機器之心

AIGC動態(tài)歡迎閱讀

原標題：ICLR 2024 | RLHF有了通用平臺和基準，天大開源，專攻現(xiàn)實決策場景
關(guān)鍵字：反饋,數(shù)據(jù),任務(wù),標簽,基線
文章來源：機器之心
內(nèi)容字數(shù)：7625字

內(nèi)容摘要：

機器之心專欄
機器之心編輯部RLHF 通過學(xué)習(xí)人類偏好，能夠在難以手工設(shè)計獎勵函數(shù)的復(fù)雜決策任務(wù)中學(xué)習(xí)到正確的獎勵引導(dǎo)，得到了很高的關(guān)注，在不同環(huán)境中選擇合適的人類反饋類型和不同的學(xué)習(xí)方法至關(guān)重要。
然而，當前研究社區(qū)缺乏能夠支持這一需求的標準化標注平臺和統(tǒng)一基準，量化和比較 RLHF 的最新進展是有挑戰(zhàn)性的。
本文中，天津大學(xué)深度強化學(xué)習(xí)實驗室的研究團隊推出了面向現(xiàn)實決策場景的 Uni-RLHF 平臺，這是一個專為 RLHF 量身定制的綜合系統(tǒng)實施方案。它旨在根據(jù)真實的人類反饋提供完整的工作流程，一站式解決實際問題。論文題目：Uni-RLHF: Universal Platform and Benchmark Suite for Reinforcement Learning with Diverse Human Feedback
項目主頁：https://uni-rlhf.github.io/
平臺鏈接：https://github.com/pickxiguapi/Uni-RLHF-Platform
算法代碼庫：https://github.com/pickxiguapi/Clean

原文鏈接：ICLR 2024 | RLHF有了通用平臺和基準，天大開源，專攻現(xiàn)實決策場景