ICLR 2024 | RLHF有了通用平臺和基準,天大開源,專攻現(xiàn)實決策場景

AIGC動態(tài)歡迎閱讀
原標題:ICLR 2024 | RLHF有了通用平臺和基準,天大開源,專攻現(xiàn)實決策場景
關(guān)鍵字:反饋,數(shù)據(jù),任務(wù),標簽,基線
文章來源:機器之心
內(nèi)容字數(shù):7625字
內(nèi)容摘要:
機器之心專欄
機器之心編輯部RLHF 通過學(xué)習(xí)人類偏好,能夠在難以手工設(shè)計獎勵函數(shù)的復(fù)雜決策任務(wù)中學(xué)習(xí)到正確的獎勵引導(dǎo),得到了很高的關(guān)注,在不同環(huán)境中選擇合適的人類反饋類型和不同的學(xué)習(xí)方法至關(guān)重要。
然而,當前研究社區(qū)缺乏能夠支持這一需求的標準化標注平臺和統(tǒng)一基準,量化和比較 RLHF 的最新進展是有挑戰(zhàn)性的。
本文中,天津大學(xué)深度強化學(xué)習(xí)實驗室的研究團隊推出了面向現(xiàn)實決策場景的 Uni-RLHF 平臺,這是一個專為 RLHF 量身定制的綜合系統(tǒng)實施方案。它旨在根據(jù)真實的人類反饋提供完整的工作流程,一站式解決實際問題。論文題目:Uni-RLHF: Universal Platform and Benchmark Suite for Reinforcement Learning with Diverse Human Feedback
項目主頁:https://uni-rlhf.github.io/
平臺鏈接:https://github.com/pickxiguapi/Uni-RLHF-Platform
算法代碼庫:https://github.com/pickxiguapi/Clean
原文鏈接:ICLR 2024 | RLHF有了通用平臺和基準,天大開源,專攻現(xiàn)實決策場景
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

粵公網(wǎng)安備 44011502001135號