擴展,擴展,還是擴展!
原標題:Just keep scaling!思維鏈作者Jason Wei 40分鐘講座剖析LLM擴展范式
文章來源:機器之心
內容字數:19621字
Jason Wei:大型語言模型的擴展范式與未來展望
機器之心編輯部對Jason Wei這個名字一定不陌生。他是OpenAI資深研究科學家,思維鏈概念開山之作《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》的第一作者,其工作對思維鏈提示、指令微調和涌現現象等技術和概念的普及貢獻巨大。近日,他在賓夕法尼亞大學的客座講座視頻和幻燈片公開,機器之心對主要內容進行了整理。
1. 擴展的定義與重要性
傳統上,擴展指增加模型規模、數據量和GPU數量。Wei給出了更具體的定義:擴展是將自身置于可沿連續軸移動并期望持續改進的狀態。盡管擴展面臨技術和心理挑戰(如高昂成本、對算法改進的偏好、激勵機制的錯配),但它是AI進步的關鍵引擎,并將繼續主導該領域的發展。
2. 擴展范式一:下一詞預測
從2018年至今,下一詞預測是主流范式。它實際上是一個大規模多任務學習過程,通過預測下一詞,模型學法、世界知識、情感分析、翻譯等多種能力。模型的整體準確率是多個子任務加權和,涌現現象正是由于不同任務提升速度不同所致。雖然下一詞預測可能最終實現AGI,但其處理復雜任務存在局限性,需要持續擴展。
3. 擴展范式二:基于思維鏈擴展強化學習
思維鏈(CoT)讓模型像人類一樣展示推理過程。OpenAI通過強化學習優化模型的思維鏈能力,使其更好地解決復雜問題。o1項目是這一范式的代表,它能進行多步推理,解決復雜問題,例如競賽數學題。這表明,延長模型思考時間,提升推理能力,是擴展的另一個重要方向。
4. AI 文化的變革
擴展改變了AI研究文化:研究重點從改進算法轉向改進數據質量;基準測試被“飽和”的速度加快;從單任務模型轉向高度多任務模型;智能和用戶體驗成為可分別改進的維度;需要更大規模的團隊合作。
5. 未來展望
Wei展望了AI的未來發展方向:AI在科學和醫療健康領域的應用;提高事實準確性,減少虛假信息;發展多模態AI能力;增強工具使用能力;擴大AI應用范圍。他認為,持續擴展將推動未來五年AI取得更大的進步,并以“just keep scaling”作為演講結束語。
總而言之,Jason Wei的演講強調了擴展在大型語言模型發展中的核心作用,并指出了未來研究的重點方向,即通過持續擴展模型規模、數據質量以及推理能力,最終實現AGI的可能性。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺