MATRIX：社會模擬推動大模型價值自對齊，比GPT4更「體貼」

AIGC動態2年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：MATRIX：社會模擬推動大模型價值自對齊，比GPT4更「體貼」
關鍵字：社會,模型,價值觀,問題,自我
文章來源：機器之心
內容字數：7985字

內容摘要：

機器之心專欄
機器之心編輯部隨著大語言模型（LLMs）在近年來取得顯著進展，它們的能力日益增強，進而引發了一個關鍵的問題：如何確保他們與人類價值觀對齊，從而避免潛在的社會負面影響？
模型如 ChatGPT 依賴于基于人類反饋的強化學習（RLHF），這一方法通過鼓勵標注者偏好的回答并懲罰不受歡迎的反饋，提出了一種解決方案。然而，RLHF 面臨著成本高昂、難以優化等問題，以及在超人類水平模型面前顯得力不從心。為了減少乃至消除對人類監督的依賴，Anthropic 推出了 Constitutional AI，旨在要求語言模型在回答時遵循一系列人類規則。同時，OpenAI 的研究通過采用弱模型監督強模型的方法，為超人類水平模型的對齊提供了新的視角。盡管如此，由于用戶給出的指令千變萬化，將一套固定的社會規則應用于 LLMs 顯得不夠靈活；而且，弱模型對強模型的監督提升效果尚不明顯。
為了解決這些大語言模型價值對齊的挑戰，上海交通大學、上海人工智能實驗室的科研團隊發表了新工作《Self-Alignment of Large Language Models via Monopolylogue-base

原文鏈接：MATRIX：社會模擬推動大模型價值自對齊，比GPT4更「體貼」