RLHF不夠用了，OpenAI設(shè)計出了新的獎勵機制

AIGC動態(tài)1年前 (2024)發(fā)布機器之心

AIGC動態(tài)歡迎閱讀

原標題：RLHF不夠用了，OpenAI設(shè)計出了新的獎勵機制
關(guān)鍵字：政策,模型,人類,反饋,數(shù)據(jù)
文章來源：機器之心
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

機器之心報道
機器之心編輯部OpenAI 的新獎勵機制，讓大模型更聽話了。自大模型興起以來，使用強化學(xué)習(xí)從人類反饋（RLHF）中微調(diào)語言模型一直是確保 AI 準確遵循指令的首選方法。
為了確保 AI 系統(tǒng)安全運行并與人類價值觀保持一致，我們需要定義期望行為并收集人類反饋來訓(xùn)練「獎勵模型」。這種模型通過發(fā)出期望的動作來指導(dǎo) AI。但是，收集這些常規(guī)和重復(fù)任務(wù)的人類反饋通常效率不高。此外，如果安全政策發(fā)生變化，已經(jīng)收集的反饋可能會過時，需要新的數(shù)據(jù)。
我們能否構(gòu)建一種新的機制來完成這些任務(wù)？近日，OpenAI 公布了一種教導(dǎo) AI 模型遵守安全政策的新方法，稱為基于規(guī)則的獎勵（Rule-Based Rewards，RBR）。
相關(guān)論文已經(jīng)放出。論文標題：Rule Based Rewards for Language Model Safety
論文地址：https://cdn.openai.com/rule-based-rewards-for-language-model-safety.pdf
代碼鏈接：https://github.com/openai/safety-rbr-code-an

原文鏈接：RLHF不夠用了，OpenAI設(shè)計出了新的獎勵機制