這篇文章以代碼大模型和垂域大模型進化為例,逐步介紹流星雨計劃。
流星雨研究計劃概述
本文介紹了北京理工大學計算機科學與技術學院啟動的流星雨研究計劃,旨在深入研究大模型自我進化的理論與方法,以推動大模型的發展。該計劃強調通過自主交互與環境的頻繁互動,促進大模型能力的深度挖掘與擴展。
一、自我進化的核心思想
流星雨計劃以 SRA-MCTS(Self-driven Reasoning Augmentation with Monte Carlo Tree Search)為基礎,提出了一種自我進化的思路。研究者通過模型自身生成推理路徑,避免了對外部監督的依賴,從而提升代碼生成的能力。
二、SRA-MCTS 的創新方法
SRA-MCTS 方法的核心在于將推理過程與數據生成緊密結合。模型通過反復生成推理路徑并進行自我訓練,形成正向反饋循環,進而提升其在復雜任務中的成功率。實驗表明,即使在小規模模型中,SRA-MCTS 也能顯著提升任務處理能力。
三、流星雨計劃的三階段框架
流星雨計劃的自我進化框架包括三個關鍵階段:
- 導師監督學習:通過 weak-to-strong 的領域數據蒸餾方法,模型首先生成指導步驟,強模型在此基礎上生成答案。
- 自我評估能力習得:模型在此階段通過更強模型的反饋進行自我糾正,提升領域性能。
- 自我提升訓練:模型在完成自我批判后,嘗試進行自我進化,利用不同推理策略的效果對比進行自我訓練。
四、研究成果與未來展望
通過應用流星雨計劃,研究者在準確性、完整性、相關性等維度上取得了顯著提升。未來,研究團隊將繼續探索更適用的自我進化方法,以實現更廣泛的應用并推廣流星雨計劃。
DIRECT LAB 期待與更多學者和業界同仁合作,共同推進大模型進化領域的探索與突破。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...