熱帖:k1.5 很牛,因?yàn)榻梃b了 UCLA 與 CMU 合作團(tuán)隊(duì)的這項(xiàng)技術(shù)
在月亮的暗面,閃閃發(fā)光。

原標(biāo)題:熱帖:k1.5 很牛,因?yàn)榻梃b了 UCLA 與 CMU 合作團(tuán)隊(duì)的這項(xiàng)技術(shù)
文章來(lái)源:AI科技評(píng)論
內(nèi)容字?jǐn)?shù):3532字
Kimi k1.5 的成功與 SPPO 算法
本文主要講述了 Kimi k1.5 大型語(yǔ)言模型的成功與其背后所使用的 SPPO 算法的關(guān)聯(lián),以及該算法發(fā)明者 Yue Wu 的學(xué)術(shù)背景和成就。
Kimi k1.5 的爆紅與爭(zhēng)議
2025年1月,Kimi k1.5 正式發(fā)布,其多模態(tài)推理能力引發(fā)熱議,被認(rèn)為是全球范圍內(nèi)除 OpenAI 外首個(gè)實(shí)現(xiàn) o1 正式版多模態(tài)推理性能的公司。然而,一個(gè)月后,博主 Yue Wu 爆料 Kimi k1.5 使用的強(qiáng)化學(xué)習(xí)算法 SPPO,其實(shí)借鑒了他 2024 年 5 月提出的技術(shù),引發(fā)了廣泛關(guān)注。
SPPO 算法詳解
SPPO 是一種自博弈算法,旨在刻畫廣泛意義上的人類偏好,并使用平方損失函數(shù)進(jìn)行優(yōu)化。它通過(guò)迭代求解,得到與人類偏好對(duì)齊良好的語(yǔ)言模型。 Yue Wu 指出 SPPO 與 RLHF 的策略梯度有著深層聯(lián)系,其平方損失等價(jià)于普通策略梯度的半在線變體,并具有輕量級(jí)的優(yōu)勢(shì),無(wú)需即時(shí)生成樣本。
研究表明,SPPO 的成功代表著大型語(yǔ)言模型后訓(xùn)練階段的一個(gè)有趣發(fā)展趨勢(shì):離線 DPO 方法逐漸取代 RLHF,而 SPPO 等迭代 DPO 方法則將離線方法轉(zhuǎn)化為在線對(duì)齊方法。 SPPO 的成功也凸顯了端到端強(qiáng)化學(xué)習(xí)的強(qiáng)大作用,甚至無(wú)需額外的技巧如價(jià)值函數(shù)、廣義優(yōu)勢(shì)估計(jì)或梯度裁剪。
此外,SPPO 還暗中在詞匯級(jí)別優(yōu)化最優(yōu)最大熵策略,其平方損失隱含地最小化了學(xué)習(xí)到的策略與最優(yōu)詞匯級(jí)別策略之間的 KL 散度。
Yue Wu 的學(xué)術(shù)成就和背景
Yue Wu 擁有強(qiáng)大的學(xué)術(shù)背景,本科畢業(yè)于北京大學(xué),博士畢業(yè)于加州大學(xué)洛杉磯分校,目前是普林斯頓大學(xué)人工智能實(shí)驗(yàn)室的博士后研究員。自 2023 年以來(lái),他已發(fā)表 9 篇論文,其中 3 篇為第一作者。他的實(shí)習(xí)經(jīng)歷也十分豐富,曾在 NEC 美研院、字節(jié)美國(guó) AI lab 和 Meta 工作,并在個(gè)性化聯(lián)邦學(xué)習(xí)、藥物發(fā)現(xiàn)和詞匯級(jí)別獎(jiǎng)勵(lì)建模等領(lǐng)域取得了顯著成果。
與他共同發(fā)表 SPPO 論文的第一作者 Zhiqing Sun 現(xiàn)已加入 OpenAI。
總而言之,Kimi k1.5 的成功與 Yue Wu 團(tuán)隊(duì)提出的 SPPO 算法密切相關(guān),SPPO 算法的創(chuàng)新性及 Yue Wu 本身強(qiáng)大的學(xué)術(shù)背景和研究能力,共同推動(dòng)了大型語(yǔ)言模型技術(shù)的發(fā)展。
聯(lián)系作者
文章來(lái)源:AI科技評(píng)論
作者微信:
作者簡(jiǎn)介:雷峰網(wǎng)旗下AI新媒體。聚焦AI前沿研究,關(guān)注AI工程落地。

粵公網(wǎng)安備 44011502001135號(hào)