開(kāi)源22萬(wàn)條DeepSeek R1的高質(zhì)量數(shù)據(jù)!你也能復(fù)現(xiàn)DeepSeek了
復(fù)雜的推理能力可以通過(guò)少量精心設(shè)計(jì)的樣本達(dá)成。

原標(biāo)題:開(kāi)源22萬(wàn)條DeepSeek R1的高質(zhì)量數(shù)據(jù)!你也能復(fù)現(xiàn)DeepSeek了
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):9264字
DeepSeek 引發(fā)的全球復(fù)現(xiàn)熱潮與 OpenR1 項(xiàng)目進(jìn)展
DeepSeek大模型的出現(xiàn),打破了中國(guó)AI技術(shù)長(zhǎng)期落后的局面,引發(fā)了全球范圍內(nèi)的復(fù)現(xiàn)熱潮。雖然DeepSeek-R1并非完全開(kāi)源,但其技術(shù)報(bào)告為復(fù)現(xiàn)提供了指導(dǎo),許多團(tuán)隊(duì)已取得成功。其中,Hugging Face領(lǐng)導(dǎo)的Open R1項(xiàng)目尤為引人注目,旨在完全開(kāi)放復(fù)現(xiàn)DeepSeek-R1,并補(bǔ)齊所有未公開(kāi)的技術(shù)細(xì)節(jié)。
1. OpenR1 項(xiàng)目的快速進(jìn)展
Open R1項(xiàng)目啟動(dòng)幾周內(nèi)便取得了顯著進(jìn)展,其GitHub倉(cāng)庫(kù)已公開(kāi)訓(xùn)練與評(píng)估代碼及合成數(shù)據(jù)生成器。近期,他們發(fā)布了OpenR1-Math-220k數(shù)據(jù)集,填補(bǔ)了DeepSeek R1未公開(kāi)的合成數(shù)據(jù)缺口。該數(shù)據(jù)集包含22萬(wàn)條高質(zhì)量的數(shù)學(xué)推理軌跡,可用于訓(xùn)練更小模型,達(dá)到與DeepSeek R1相當(dāng)?shù)男阅堋?/p>
2. OpenR1-Math-220k 數(shù)據(jù)集的特點(diǎn)
OpenR1-Math-220k數(shù)據(jù)集基于DeepSeek R1生成,擁有以下特點(diǎn):
- 基于NuminaMath 1.5:專(zhuān)注于數(shù)學(xué)推理公式。
- 高效生成:利用本地計(jì)算集群,每天可生成18萬(wàn)條推理軌跡。
- 自動(dòng)過(guò)濾:通過(guò)數(shù)學(xué)驗(yàn)證和Llama-3.3-70B-Instruct模型篩選,確保數(shù)據(jù)質(zhì)量。
- 數(shù)據(jù)集劃分:分為default (94k問(wèn)題)和extended (131k問(wèn)題)兩個(gè)部分。
在該數(shù)據(jù)集上訓(xùn)練的Qwen-7B-Math-Instruct模型,性能與DeepSeek-Distill-Qwen-7B相當(dāng)。
3. 數(shù)據(jù)集的生成和過(guò)濾過(guò)程
OpenR1團(tuán)隊(duì)利用DeepSeek R1為40萬(wàn)個(gè)問(wèn)題生成答案,并設(shè)置了嚴(yán)格的過(guò)濾機(jī)制:首先,通過(guò)數(shù)學(xué)驗(yàn)證自動(dòng)篩選正確答案;其次,利用Llama-3.3-70B-Instruct模型作為“判官”,進(jìn)一步篩選出因格式問(wèn)題被誤判的正確答案;最后,嘗試使用獎(jiǎng)勵(lì)模型進(jìn)行最終篩選,但效果并不理想。
4. OpenR1 訓(xùn)練模型與 DeepSeek 的性能對(duì)比
OpenR1在OpenR1-Math-220k數(shù)據(jù)集上對(duì)Qwen2.5-Math-Instruct進(jìn)行微調(diào)后,其性能與DeepSeek-Distill-Qwen-7B差距不大。然而,AIME 2025競(jìng)賽中,各種模型的數(shù)學(xué)能力普遍下降,這可能與測(cè)試數(shù)據(jù)泄露導(dǎo)致的過(guò)擬合有關(guān)。
5. 對(duì)未來(lái)研究方向的啟示
OpenR1項(xiàng)目以及其他研究成果表明:
- 少量高質(zhì)量數(shù)據(jù)即可實(shí)現(xiàn)高級(jí)推理能力:s1K和LIMO數(shù)據(jù)集都證明了這一點(diǎn)。
- CoT長(zhǎng)度的優(yōu)化:預(yù)算和獎(jiǎng)勵(lì)塑造等技術(shù)可以有效提升模型性能。
- 探索更有效的推理方法:例如,利用循環(huán)語(yǔ)言模型在潛在空間中進(jìn)行隱式推理,提高計(jì)算效率。
OpenR1項(xiàng)目仍在持續(xù)進(jìn)行,未來(lái)將進(jìn)一步探索GRPO等技術(shù),并期待更多突破性進(jìn)展。
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)