Kimi 數(shù)理化能跟 o1 掰手腕了？新模型 k1 有點兒強

2025 年，「推理」將是大模型競爭的下一個分水嶺。作者丨西西張進(jìn)編輯丨陳彩嫻今天，月之暗面官方宣布：繼 11 月 16 日發(fā)布數(shù)學(xué)模型 k0-math 后，他們又推出了新的視覺思考模型 k1，且「數(shù)理化」的能力又上了一個新臺階，實測結(jié)果絲毫不輸 OpenAI o1！最直接的實測例子是：當(dāng)我們把楊振寧、伽利略等世界知名科學(xué)家的研究手稿拍照、上傳后，k1 居然能識別圖片中的文字，生動解讀背后的物理、天文學(xué)等科學(xué)知識，從而回答用戶的提問并給出清晰完整的推理思考過程。例如，當(dāng)我們上傳楊振寧的手稿并向 k1 提問，k1 給出了超乎小編知識范疇所能辨真?zhèn)蔚拇鸢福哼@是楊振寧的手稿圖片——這是我們的詢問：這是物理學(xué)家楊振寧的手稿照片，請你一步一步分析，楊振寧在計算什么，他可能在想什么，當(dāng)時可能是什么背景？這是 k1 的回答：上下滑動查看長圖雖然小編既不懂電磁場、也不懂粒子動力學(xué)，但看完 k1 的答案著實大吃一驚！并忍不住發(fā)出靈魂叩問：圖靈測試面對大模型還有效嗎？人類讀者面對這樣的問題怎么區(qū)分 k1 與爾等用戶的區(qū)別？當(dāng) AI 大模型不斷進(jìn)化，假以時日圖靈測試的標(biāo)準(zhǔn)答卷是否會變成：同一個問題的兩個不同答案，答案更高明的永遠(yuǎn)盲選「機器」、答案更普通的永遠(yuǎn)盲選「人類」……更重要的是：從數(shù)學(xué)模型 k0 到視覺思考模型 k1，月之暗面（Kimi）僅用了一個月！據(jù)了解，k1 是基于 k0 的模型升級。k0-math 模型數(shù)學(xué)能力出眾，但由于僅支持 LaTeX等格式的文本輸入，依賴圖形理解能力的部分幾何圖形題無法解決。而新的 k1 視覺思考模型借助端到端的圖像理解能力，解鎖了包括幾何題在內(nèi)更加全面的數(shù)學(xué)能力。當(dāng)多模態(tài)智能不斷進(jìn)化，視覺模型的推理能力從文本拓展到「數(shù)理化」，我們可以大膽猜想：Kimi 大模型不僅能輕松解決傳統(tǒng)的文本與圖像信息對齊問題，連謝爾頓怎么教佩妮學(xué)物理的難題都能解決了！1中國首個視覺思考模型自 2021 年 1 月 OpenAI 發(fā)布 DALL·E 及圖文對齊架構(gòu) CLIP 以來，事實上業(yè)內(nèi)針對圖像-文本任務(wù)的雙模態(tài)信息對齊與處理提出了多樣化的解決思路，并發(fā)表了大量工作。但過去三年來，這些模型的特征局限在文本數(shù)據(jù)上：首先，以生成為主，如文生圖任務(wù)，強調(diào)圖文對齊、而非推理。例如，國內(nèi)有大批廠商早在今年上半年就已推出看圖說話功能，主要應(yīng)用在旅游景點介紹、拍照生成搭配詩詞歌賦等，缺少較強的常識認(rèn)知與邏輯推理等能力。其次，不具備一步一步拆解分析數(shù)理化問題的思維鏈能力，沒有將基礎(chǔ)大模型的語義理解與數(shù)理化問題的深度思考需求結(jié)合起來。此外，撇開底層基礎(chǔ)模型的能力差異不說，由于推理模型的產(chǎn)品體驗不如純文生圖或圖生視頻等來得直觀，模型的思考能力需要結(jié)合模型的文本輸出能力來獲得一手觀感。而其中，長文本是展示模型推理的最佳方式之一。而 Kimi 今天發(fā)布的視覺思考模型 k1 ，基于強大的基礎(chǔ)模型，就從答案輸出的長文本能力體現(xiàn)了其在多模態(tài)推理上的躍升。值得注意的是，這也是國內(nèi)首個視覺思考模型！不同于以往國內(nèi)外發(fā)布的推理模型，k1 的推理能力有兩大優(yōu)勢：一是數(shù)理化能力杰出，二是視覺識別與邏輯推理能力強強結(jié)合。首先，根據(jù)官方數(shù)據(jù)披露，在 k0-math 數(shù)學(xué)模型的基礎(chǔ)上，k1 的能力不僅擴大到了數(shù)學(xué)領(lǐng)域中的幾何圖形方向，還增加了物理、化學(xué)等基礎(chǔ)科學(xué)能力。在基礎(chǔ)教育各階段的幾何和圖形題專項基準(zhǔn)能力測試中，k1-preview 成績打平或超過了 OpenAI 的 o1 模型：結(jié)合端到端圖像理解和深度思維鏈推理技術(shù)，在數(shù)學(xué)、物理、化學(xué)等基礎(chǔ)教育學(xué)科的基準(zhǔn)能力測試中，初代 k1 模型表現(xiàn)接近或超過 OpenAl o1、GPT-4o 以及 Claude 3.5 Sonnet 等領(lǐng)先視覺模型，達(dá)到了全球一流水平：此外，k1 還具備超強的視覺識別能力，并將視覺識別能力與語言推理能力強強結(jié)合！k1 可以準(zhǔn)確識別強噪聲干擾下拍攝的圖片信息，包括但不限于灰暗燈光下拍攝、拍攝有陰影、拍攝書本彎折起伏、拍攝模糊或虛化、有手寫字跡干擾等等傳統(tǒng)視覺識別也難以解決的場景：在推理模型的實際應(yīng)用中，除了文本識別，涉及到公式與圖形的理工類圖文信息識別往往是用戶直接拍照輸入解答。傳統(tǒng)基于文本的推理模型，或者不支持圖像信息輸入，或者需要借助外部 OCR/視覺模型進(jìn)行轉(zhuǎn)換，效果有明顯損失。而 k1 的視覺部分針對這一問題進(jìn)行了顯著改善。據(jù) AI 科技評論了解，學(xué)生群體一直是 Kimi 用戶數(shù)最廣的群體之一，更是 Kimi 崛起的重要幕后推手之一。本次 k1 的視覺思考能力，精準(zhǔn)捕捉了學(xué)生拍照識題并深度解讀的需求，將成為掃描王等產(chǎn)品的強有力競爭對手！基準(zhǔn)測試數(shù)據(jù)顯示，在復(fù)雜拍攝條件下，例如照片圖像不清晰、多題一起拍、手寫字跡干擾，甚至純手寫的題目等場景，k1 模型相比 OpenAI 和 Anthropic 的視覺思考模型，有更顯著的領(lǐng)先優(yōu)勢：2k1 掀起科學(xué)家手稿識別風(fēng)相較 k0 的數(shù)學(xué)能力，k1 解鎖數(shù)理化并結(jié)合視覺識別與推理的能力，顯然擁有更廣闊的應(yīng)用場景。其中，最震撼的是 k1 居然能解讀諾貝爾獎級別的科學(xué)家研究手稿或筆記！除了開頭的楊振寧手稿，k1 的發(fā)布還掀起了一批對伽利略、錢學(xué)森等科學(xué)家的手稿識別風(fēng)：先看伽利略的天文學(xué)研究。輸入一張伽利略的意大利語筆記圖片：詢問 k1：請一步步推測一下這個筆記的作者是誰，筆記內(nèi)容在講什么？k1 的回答如下：上下滑動查看長圖答案簡直逆天有木有！k1 視覺模型的體驗入口已經(jīng)放在 Kimi 首頁，為此小編也抓緊去體驗了一下來自科學(xué)家的大腦暴擊！接著我又去網(wǎng)上找了幾張科學(xué)家的手稿照片，這是錢學(xué)森的：我心想圖片這么模糊、字跡這么別具一格，k1 總該難倒了吧，結(jié)果，k1 不僅精確識別！還邏輯清晰！振振有詞！上下滑動查看長圖對于爾等文科生來說，這就好像能帶計算機進(jìn)考場考數(shù)學(xué)一樣，以后行走江湖豈不是輕輕松松縱橫四海？（狗頭護(hù)身）看到 k1 這么輕松就能解答復(fù)雜的數(shù)理化研究筆記，小編又忍不住思考：k1 能解答科學(xué)家手稿，那能解答抽象的現(xiàn)代美術(shù)展館的藝術(shù)展品嗎？讓我來試試。輸入莫奈的《睡蓮》，k1 解讀依然完美：上下滑動查看長圖不過，當(dāng)我輸入莫奈另一幅由于戰(zhàn)亂輾轉(zhuǎn)導(dǎo)致殘缺的《睡蓮》畫作與今年香港巴塞爾藝術(shù)展上頗受關(guān)注的油彩筆所畫真人畫作時，k1 的表現(xiàn)則沒有解讀科學(xué)家筆記時那么深刻、嚴(yán)謹(jǐn)，原因或許是因為訓(xùn)練數(shù)據(jù)不足。但在對未知或不那么熟悉的知識領(lǐng)域，k1 也能以擬人、優(yōu)美的文字表達(dá)，展示一步一步思考問題的能力：輸入莫奈殘缺版睡蓮：k1 的解讀如下：上下滑動查看長圖在處理包含復(fù)雜信息的圖像上，k1 的能力無疑是當(dāng)前國產(chǎn)模型的先鋒，尤其在包含復(fù)雜公式與幾何圖形的數(shù)理化問題上。相比藝術(shù)作品，后者更能體現(xiàn)底層模型的邏輯推理能力。而從用戶的體驗角度評價，由于 k1 結(jié)合了思維鏈與長文本技術(shù)，無論面對理科還是文科問題時都能給出一份展示完整思考過程的答案，在人機交互的產(chǎn)品創(chuàng)新上依然能給我們帶來新意。3月之暗面的 AGI 進(jìn)階之路大模型沖刺 AGI 的下一步趨勢，主要有三塊：多模態(tài)、推理與 AI 的自我學(xué)習(xí)。這三塊中的每一塊難題攻關(guān)，都是挑戰(zhàn)重重；而 k1 的發(fā)布，至少體現(xiàn)了月之暗面攻克 AGI 的兩個重大命題，即多模態(tài)與推理，更是難上加難，尤其 k1 將兩者結(jié)合，無論是技術(shù)還是產(chǎn)品上都體現(xiàn)出了月之暗面團(tuán)隊持續(xù)的創(chuàng)新能力。今年下半年起，月之暗面在 Kimi 產(chǎn)品上頻頻推出新功能：10 月，Kimi探索版革新「AI搜索」，強調(diào)AI的自助搜索能力，瞄準(zhǔn)傳統(tǒng)搜索引擎的弊端，解決了大量 AI 搜索不痛不癢「拼湊大量信息」問題，重新定義了「AI搜索」。11 月，上個月的今天月之暗面發(fā)布了數(shù)學(xué)模型 k0-math，其數(shù)學(xué)能力對標(biāo) OpenAI o1 系列。12 月，今天月之暗面在 k0-math 模型的基礎(chǔ)上再推出視覺思考模型k1，數(shù)理化能力再上一個臺階?？梢钥吹?，這家大模型公司正在以月為單位的速度推出新技術(shù)、更新Kimi產(chǎn)品細(xì)節(jié)。一年前，月之暗面發(fā)布了支持輸入 20 萬漢字的智能助手產(chǎn)品 Kimi，創(chuàng)造了 C 端 AI 所支持的上下文輸入長度的新紀(jì)錄，以「長文本」策略一舉打響了 C 端 AI 產(chǎn)品市場，贏得一大批用戶，也給其他大模型公司帶來不小壓力。之后，Kimi的產(chǎn)品能力和技術(shù)實力萬眾期待，整個業(yè)界都在期待 Kimi 的下一個動作會是什么，但在之后的整整十一個月里，Kimi都沒有任何新的技術(shù)發(fā)布。而在這段時間里，Sora、GPT-4o、GPT-o1等現(xiàn)象級產(chǎn)品一次次點燃大眾的熱情，整個大模型領(lǐng)域都在跟進(jìn)，每天誰家又做出來「類 Sora」產(chǎn)品、誰家又超過GPT-4o……好不熱鬧。在GPT-o1發(fā)布后，其推理能力驚艷，主要體現(xiàn)在數(shù)學(xué)與編程上。這不僅涉及到思維鏈的 scale-up，模型推理能力的數(shù)據(jù)來源、以及背后的訓(xùn)練方法也十分關(guān)鍵。早在今年 4月底清華人工智能學(xué)院的成立大會上，多模態(tài)方向領(lǐng)先研究者、京東技術(shù)副總裁何曉冬就預(yù)測過，下一代大模型的訓(xùn)練大概率是通過模型生成的數(shù)據(jù)和標(biāo)注、以及模型互相對抗這條“類強化學(xué)習(xí)”技術(shù)路線來推進(jìn)。k0-math 發(fā)布時，楊植麟也提出，基于強化學(xué)習(xí)的 scale-up 比簡單預(yù)測下一個 token更能提升 AI 模型的思考能力，他認(rèn)為多模態(tài)最重要的也是思考與交互，但思考的重要性遠(yuǎn)大于交互，思考決定了上限。基干強化學(xué)習(xí)技術(shù)，AI模型具備像人一樣思考的潛力：在遇到問題時，首先分析問題，并提出不同的解法，然后根據(jù)不同的解法進(jìn)行不斷試驗、反思并改進(jìn)。自 AlphaGo 開始，深度強化學(xué)習(xí)一直被視為實現(xiàn) AGI 的關(guān)鍵路徑之一。但在過去，由于深度強化學(xué)習(xí)有兩大缺陷：一是樣本效率與計算效率低，二是算法安全性與魯棒性低，其不適用于解決現(xiàn)實世界中交通、醫(yī)療、金融等關(guān)鍵領(lǐng)域的智能決策問題，因為這些領(lǐng)域的容錯率低、一旦出錯則風(fēng)，險極高。但大模型時代到來后，結(jié)合大模型的語義理解與 2022 年出現(xiàn)的思維鏈技術(shù)后，強化學(xué)習(xí)有了新的生命。通過在大模型產(chǎn)品交互中引入強化學(xué)習(xí)的過程獎勵機制，對模型的推理過程進(jìn)行逐步激勵與懲罰，激勵模型生成更詳細(xì)、質(zhì)是更高的推理過程。Kimi 將基于強化學(xué)習(xí)技術(shù)的新一代模型，稱為“思考模型”。這是月之暗面創(chuàng)始人楊植麟技術(shù)路線思考的直觀體現(xiàn)。而在明確強化學(xué)習(xí)與AI思考能力放下之前，月之暗面也經(jīng)歷過戰(zhàn)略調(diào)整，但最終決定要聚焦，聚焦Kimi。楊植麟稱，這是他們主動做了業(yè)務(wù)減法的結(jié)果，聚焦去做離 AGI 上限最高的事情，然后做好。從 k0 到 k1，月之暗面都給國內(nèi)的大模型發(fā)展帶來了驚喜，k1 之后，k2、k3、k4…會如何迭代呢？作為技術(shù)的領(lǐng)跑者，Kimi 正在定義屬于自己的 AGI 路線。更多內(nèi)容，點擊下方關(guān)注：未經(jīng)「AI科技評論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán)，轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

閱讀原文