LLM對齊綜述｜邁向可擴展的大模型自動對齊，中科院軟件所&阿里千問發布

AIGC動態歡迎閱讀

原標題：LLM對齊綜述｜邁向可擴展的大模型自動對齊，中科院軟件所&阿里千問發布
關鍵字：模型,人類,反饋,信號,指令
文章來源：夕小瑤科技說
內容字數：0字

內容摘要：

夕小瑤科技說原創作者 | 中科院軟件所&阿里千問近年來，大模型的高速發展極大地改變了人工智能的格局。對齊（Alignment）是使大模型的行為符合人類意圖和價值觀，引導大模型按照人類的需求和期望進化的核心步驟，因此受到學術界和產業界的高度關注。
先前的對齊工作主要依賴于人工標注的、包含有人類偏好信息的對齊數據來對模型進行繼續訓練，從而實現模型的對齊。具體來說，有兩種形式的最為常用的對齊數據：1）指令-回復對，這類數據通常包含有一個指令以及一個人類撰寫的標準回復，通常被用來對大模型進行有監督微調，從而將其中包含有的人類偏好信息注入到模型當中；2）偏好數據，這類數據通常包含有一個指令，若干個潛在的回復以及人類對這些回復的偏好信息。偏好數據既可以被用在DPO、IPO、PRO等各類算法中來會直接對大模型進行優化，也可以被用來訓練reward model，然后通過使用reward model對模型進行反饋的方式，間接地將偏好數據中的對齊信號注入到模型當中。然而，無論是指令回復對還是偏好數據，在它們構建過程當中都需要非常昂貴、精細同時對標注質量要求非常高的人類標注的參與，這使得這類方法的每一步

原文鏈接：LLM對齊綜述｜邁向可擴展的大模型自動對齊，中科院軟件所&阿里千問發布