Klear-Reasoner – 快手開源的推理模型
Klear-Reasoner,快手推出的基于Qwen3-8B-Base的強大推理模型,在數(shù)學與代碼領(lǐng)域展現(xiàn)出卓越的洞察力。其核心創(chuàng)新在于GPPO算法,它巧妙地保留了被裁剪的梯度信息,有效解決了傳統(tǒng)方法中探索受限與負樣本收斂遲緩的難題。通過長思維鏈監(jiān)督微調(diào)(long CoT SFT)與強化學習(RL)的深度融合,Klear-Reasoner在AIME和LiveCodeBench等權(quán)威基準測試中,為8B模型樹立了新的標桿。該模型的訓練細節(jié)與完整流程已公開,為推理模型的研究與復(fù)現(xiàn)提供了寶貴的參考路徑。
Klear-Reasoner:洞悉數(shù)學與代碼的智能引擎
Klear-Reasoner是由快手精心打造的一款先進推理模型,其根基穩(wěn)固于Qwen3-8B-Base,并專注于在數(shù)算和代碼理解兩大關(guān)鍵領(lǐng)域?qū)崿F(xiàn)能力飛躍。模型通過精妙的長思維鏈監(jiān)督微調(diào)(long CoT SFT)以及強化學習(RL)的聯(lián)合訓練,核心的突破性技術(shù)在于其獨創(chuàng)的GPPO算法。這一算法通過革新性的梯度處理方式,保留了本應(yīng)被裁剪的梯度信息,從而有效地克服了傳統(tǒng)模型在探索未知領(lǐng)域時的能力局限,以及在面對負面樣本時收斂緩慢的頑疾。在AIME數(shù)學競賽和LiveCodeBench代碼評測等嚴苛的基準測試中,Klear-Reasoner已然達到了8B模型級別中的頂尖水準。更重要的是,Klear-Reasoner的訓練過程及其全套流程已完全對外公開,為整個推理模型領(lǐng)域的發(fā)展貢獻了重要的參考價值與可復(fù)現(xiàn)的研究路徑。
Klear-Reasoner的核心能力概覽
- 精湛的數(shù)學推理能力:Klear-Reasoner在解析和解決復(fù)雜的數(shù)學難題方面表現(xiàn)非凡,能夠應(yīng)對高難度的數(shù)學競賽題目,展現(xiàn)出強大的邏輯推演實力。
- 卓越的代碼生成與解析:該模型能夠生成高質(zhì)量的代碼片段,并在LiveCodeBench V5和V6的評測中分別取得了66.0%和58.1%的優(yōu)異準確率,充分證明了其在代碼理解和生成方面的深厚功底。
- 駕馭長思維鏈的智慧:Klear-Reasoner能夠高效處理需要多步邏輯推演的長思維鏈任務(wù),通過長思維鏈監(jiān)督微調(diào)(long CoT SFT)和強化學習(RL)的訓練,顯著提升了模型在復(fù)雜多步推理場景下的表現(xiàn)。
- 精益求精的數(shù)據(jù)優(yōu)化策略:在模型訓練過程中,Klear-Reasoner嚴格篩選高質(zhì)量的數(shù)據(jù)源,確保模型能夠?qū)W習到最精準的推理模式。同時,它巧妙地保留了一部分錯誤樣本,這反過來增強了模型的探索能力,使其在面對未知挑戰(zhàn)時更加游刃有余。
Klear-Reasoner背后的技術(shù)驅(qū)動力
- 長思維鏈監(jiān)督微調(diào)(long CoT SFT):通過引入高質(zhì)量的監(jiān)督數(shù)據(jù)進行微調(diào),Klear-Reasoner得以學習到精確的推理模式。模型優(yōu)先選取少數(shù)精挑細選的高質(zhì)量數(shù)據(jù)源,有效規(guī)避了低質(zhì)量數(shù)據(jù)可能帶來的噪聲干擾。值得一提的是,模型還特意保留了部分錯誤樣本,尤其是在處理高難度任務(wù)時,這些樣本能夠顯著激發(fā)模型的探索潛能。
- 強化學習(RL)的深度賦能:為了進一步打磨模型的推理能力,特別是在數(shù)學和代碼這兩個關(guān)鍵領(lǐng)域,模型引入了強化學習機制。它采用了軟獎勵機制,根據(jù)測試用例的通過情況而非簡單的對錯來給予獎勵,這有效緩解了獎勵稀疏的問題,提升了訓練效率。同時,模型還會對存在問題的測試用例進行過濾,以保證訓練數(shù)據(jù)的純凈度與高質(zhì)量。
- GPPO(Gradient-Preserving Clipping Policy Optimization)算法:在傳統(tǒng)的PPO和GRPO算法中,裁剪操作(clip)會無情地丟棄高熵(high-entropy)token的梯度,這極大地限制了模型的探索邊界,并導致負樣本的收斂過程異常緩慢。GPPO算法則開創(chuàng)性地引入了stop gradient操作,將裁剪操作與梯度反向傳播過程解耦,確保了所有token的梯度都能被保留。對于高熵token,GPPO在保留其梯度的同時,將其約束在一個合理的范圍內(nèi)。而對于負樣本token,GPPO同樣保留其梯度,并加以適度的限制,從而顯著加快了錯誤修正的速度。
- 軟獎勵機制的優(yōu)勢:在代碼任務(wù)的強化學習訓練中,相較于硬獎勵(完全通過則得分,否則為零)而言,軟獎勵機制(根據(jù)測試用例的通過率給予獎勵)展現(xiàn)出更佳的效能。這種機制能夠有效緩解獎勵信號的稀疏性問題,增加訓練信號的密度,降低梯度估計的方差,使得模型的學習過程更加平穩(wěn)且高效。
Klear-Reasoner的資源獲取途徑
- GitHub代碼庫:https://github.com/suu990901/KlearReasoner/
- HuggingFace模型庫:https://huggingface.co/Suu/Klear-Reasoner-8B
- arXiv技術(shù)論文:https://arxiv.org/pdf/2508.07629
Klear-Reasoner的廣泛應(yīng)用前景
- 教育領(lǐng)域的智慧助力:作為一款智能的數(shù)學輔導工具,Klear-Reasoner能夠為學生提供詳盡的解題步驟與推理過程,幫助用戶更深入地理解和掌握數(shù)學知識。
- 賦能軟件開發(fā)的效率:該模型能夠自動生成高質(zhì)量的代碼片段,極大地輔助開發(fā)者快速構(gòu)建功能模塊,同時還能提供代碼審查建議,從而提升代碼的整體質(zhì)量和開發(fā)效率。
- 金融科技領(lǐng)域的精準決策:在金融領(lǐng)域,Klear-Reasoner能夠?qū)A拷鹑跀?shù)據(jù)進行深度分析,輔助風險評估與預(yù)測,為金融機構(gòu)提供強有力的邏輯推理支持,助力更明智的決策制定。
- 科研與數(shù)據(jù)分析的加速器:Klear-Reasoner能夠高效處理復(fù)雜的數(shù)據(jù)分析與科學計算任務(wù),為研究人員提供寶貴的邏輯推理和模型解釋,顯著提高科研工作的效率。
- 智能客服的卓越體驗:在智能客服場景下,Klear-Reasoner能夠快速準確地解答用戶提出的復(fù)雜問題,并清晰地展示推理過程,從而大幅提升用戶體驗和問題解決的效率。

粵公網(wǎng)安備 44011502001135號