顛覆數(shù)學(xué)界的創(chuàng)新:月之暗面推出k0-math模型,挑戰(zhàn)o1的霸主地位!
楊植麟:Kimi目前最核心的任務(wù)是提升留存。
原標(biāo)題:月之暗面發(fā)布首款數(shù)學(xué)模型 k0-math,對(duì)標(biāo)o1
文章來(lái)源:AI科技評(píng)論
內(nèi)容字?jǐn)?shù):3663字
Kimi數(shù)學(xué)模型k0-math發(fā)布:提升AI思考能力的新探索
近日,在京東科技大廈,月之暗面創(chuàng)始人楊植麟宣布Kimi數(shù)學(xué)模型k0-math正式發(fā)布。該模型的數(shù)學(xué)能力與OpenAI的o1系列相當(dāng),預(yù)計(jì)到2024年10月,Kimi的月活躍用戶將超過(guò)3600萬(wàn)。楊植麟強(qiáng)調(diào),未來(lái)的重點(diǎn)在于基于強(qiáng)化學(xué)習(xí)的方法進(jìn)行模型的擴(kuò)展,而不僅限于簡(jiǎn)單的下一個(gè)token預(yù)測(cè)。
1. 強(qiáng)化學(xué)習(xí)與深度思考
楊植麟指出,傳統(tǒng)的Next-Token預(yù)測(cè)方法無(wú)法培養(yǎng)AI的思考能力,而強(qiáng)化學(xué)習(xí)則能在一定程度上實(shí)現(xiàn)這一目標(biāo)。他以解數(shù)學(xué)題為例,強(qiáng)調(diào)了深度思考過(guò)程的重要性。k0-math模型的設(shè)計(jì)初衷便是從數(shù)學(xué)場(chǎng)景出發(fā),逐步推廣到其他復(fù)雜任務(wù)。
2. k0-math模型的表現(xiàn)
根據(jù)多項(xiàng)基準(zhǔn)測(cè)試,k0-math的初代模型在中考、高考和考研等多個(gè)數(shù)學(xué)測(cè)試中均超越了OpenAI的o1-mini和o1-preview模型。在更高難度的OMNI-MATH和AIME基準(zhǔn)測(cè)試中,k0-math的表現(xiàn)也達(dá)到了o1-mini的高水平。
3. 強(qiáng)化模型的特點(diǎn)與挑戰(zhàn)
在未來(lái)的一到兩周內(nèi),k0-math的強(qiáng)化模型將會(huì)加入Kimi探索版,具備意圖增強(qiáng)、信源分析和鏈?zhǔn)剿伎脊δ堋钪谗胩岬剑瑥?qiáng)化學(xué)習(xí)中的一個(gè)核心問(wèn)題是如何處理生成的學(xué)習(xí)數(shù)據(jù)的有效性和正確性,以提升模型的學(xué)習(xí)質(zhì)量。
4. 控制過(guò)度思考
k0-math在思考簡(jiǎn)單問(wèn)題時(shí)可能出現(xiàn)「過(guò)度思考」,例如在回答1+1時(shí),會(huì)給出詳細(xì)的推理過(guò)程。對(duì)此,楊植麟表示,可以通過(guò)調(diào)整獎(jiǎng)勵(lì)模型的結(jié)構(gòu)來(lái)抑制這種現(xiàn)象。
5. 聚焦與創(chuàng)新
楊植麟強(qiáng)調(diào),Kimi當(dāng)前的核心任務(wù)是提升用戶留存率,并表示在產(chǎn)品策略上,月之暗面采取了更為克制的做法,專注于最有潛力的領(lǐng)域。他認(rèn)為,團(tuán)隊(duì)的規(guī)模控制對(duì)創(chuàng)新至關(guān)重要,避免變成大型企業(yè)。
6. 未來(lái)展望
楊植麟相信,預(yù)訓(xùn)練模型仍有發(fā)展空間,尤其是結(jié)合強(qiáng)化學(xué)習(xí)的方法,將大幅提升模型的性能。他認(rèn)為,AI與人為標(biāo)注的結(jié)合,將為未來(lái)的模型發(fā)展開辟更大的可能性。
聯(lián)系作者
文章來(lái)源:AI科技評(píng)論
作者微信:
作者簡(jiǎn)介:雷峰網(wǎng)旗下AI新媒體。聚焦AI前沿研究,關(guān)注AI工程落地。