DeepSeek才是“真正的OpenAI”?|甲子光年
虛假的OpenAI在被打假,真正的“OpenAI”在開源。
原標(biāo)題:DeepSeek才是“真正的OpenAI”?|甲子光年
文章來源:甲子光年
內(nèi)容字?jǐn)?shù):9099字
DeepSeek R1:開源的推理模型挑戰(zhàn)閉源OpenAI
本文報道了DeepSeek發(fā)布的開源推理模型DeepSeek R1,以及其與閉源OpenAI模型在性能和策略上的對比。DeepSeek R1憑借其開源、低價和強大的性能,引發(fā)了業(yè)界廣泛關(guān)注,被譽為“真正的OpenAI”。
1. DeepSeek R1:基于強化學(xué)習(xí)的突破
DeepSeek R1的核心亮點在于其“沒有監(jiān)督微調(diào)下的直接強化學(xué)習(xí)”。團隊首先嘗試了DeepSeek-R1-Zero,直接用強化學(xué)習(xí)(RL)訓(xùn)練基礎(chǔ)模型,無需監(jiān)督微調(diào)數(shù)據(jù)。通過基于規(guī)則的獎勵系統(tǒng),模型在推理能力上取得了顯著提升,甚至出現(xiàn)了“頓悟時刻”,展現(xiàn)了RL的強大潛力。然而,DeepSeek-R1-Zero也存在一些問題,如可讀性差。為此,DeepSeek團隊設(shè)計了一個四階段流程,最終打造出DeepSeek R1,在多個基準(zhǔn)測試中達(dá)到甚至超過了OpenAI o1的性能。
2. 簡潔高效的訓(xùn)練策略
DeepSeek R1的成功,也證明了“基于強大的模型,使用簡單的基于規(guī)則的獎勵進行強化學(xué)習(xí),經(jīng)過大量訓(xùn)練,也能達(dá)到最強推理模型的效果”。團隊摒棄了復(fù)雜的過程獎勵模型,采用基于規(guī)則的獎勵系統(tǒng),降低了訓(xùn)練難度,并通過“數(shù)據(jù)即模型”的思路,利用DeepSeek-R1-Zero生成數(shù)據(jù),優(yōu)化DeepSeek R1的性能。這種簡潔高效的訓(xùn)練方法,為其他研究者提供了新的思路。
3. 開源與低價:構(gòu)建開放的AI生態(tài)
與OpenAI的閉源策略形成鮮明對比,DeepSeek R1及其相關(guān)模型均為開源,并采用了極具競爭力的低價策略,將每百萬token的成本降低了約95%。這不僅降低了AI應(yīng)用的門檻,也為中小企業(yè)和個人開發(fā)者提供了更多機會,推動了AI技術(shù)的普及和發(fā)展。DeepSeek的開源策略體現(xiàn)了“美美與共”的精神,構(gòu)建了一個更加開放和包容的AI生態(tài)。
4. 中國AI的崛起
DeepSeek R1的成功,以及其他中國AI廠商的快速發(fā)展,表明中國在AI領(lǐng)域正崛起成為一股不容忽視的力量。DeepSeek R1的開源和低價策略,不僅挑戰(zhàn)了OpenAI的市場地位,更重要的是,它為全球AI發(fā)展注入了新的活力,推動著人工智能向更開放、更普惠的方向發(fā)展。
總而言之,DeepSeek R1的出現(xiàn),標(biāo)志著AI技術(shù)發(fā)展進入了一個新的階段。其開源、低價和強大的性能,為AI技術(shù)的普及和應(yīng)用提供了新的可能性,也為全球AI研究者提供了寶貴的經(jīng)驗和參考。
聯(lián)系作者
文章來源:甲子光年
作者微信:
作者簡介:甲子光年是一家科技智庫,包含智庫、社群、企業(yè)服務(wù)版塊,立足中國科技創(chuàng)新前沿陣地,動態(tài)跟蹤頭部科技企業(yè)發(fā)展和傳統(tǒng)產(chǎn)業(yè)技術(shù)升級案例,推動人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)、云計算、新能源、新材料、信息安全、大健康等科技創(chuàng)新在產(chǎn)業(yè)中的應(yīng)用與落地。