Ilya帶頭OpenAI超級對齊首篇論文《弱到強的泛化:在弱監督下獲得強能力》，AI對齊AI取得實證結果

AIGC動態2年前 (2023)發布人工智能學家

AIGC動態歡迎閱讀

原標題：Ilya帶頭OpenAI超級對齊首篇論文《弱到強的泛化:在弱監督下獲得強能力》，AI對齊AI取得實證結果

文章來源：人工智能學家

內容字數：5621字

內容摘要：來源：轉載機器之心報道編輯：陳萍、蛋醬人類無法監督超級人工智能，但人工智能可以。過去一年，以「預測下一個 Token」為本質的大模型已經橫掃人類世界的多項任務，展現了人工智能的巨大潛力。在近日的一次訪談中，OpenAI 首席科學家 Ilya Sutskever 大膽預言，如果模型能夠很好地預測下一個詞，那么意味著它能夠理解導致這個詞產生的深刻現實。這意味著，如果 AI 按照現有路徑發展下去，也許在不久的將來，一個超越人類的人工智能系統就會誕生。但更加令人擔心的是，「超級人工智能」可能會帶來一些意想不到的負面后果。這也是「對齊」的意義。此前的對齊方法依賴于人類的監督，如在 ChatGPT 訓練中起到關鍵作用的人類反饋的強化學習（RLHF）。但未來的人工智能系統或許能夠做出極其復雜和富有創造性的行為，使人類難以對其進行可靠的監督。例如，超人類模型可能會編寫出數百萬行新奇的、具有潛在危險的計算機…

原文鏈接：點此閱讀原文：Ilya帶頭OpenAI超級對齊首篇論文《弱到強的泛化:在弱監督下獲得強能力》，AI對齊AI取得實證結果