1M長(zhǎng)上下文,滿血版Gemini 2.0又一次登上Chatbot Arena榜首
才過了一個(gè)月,數(shù)學(xué)能力就提升了 10%
原標(biāo)題:1M長(zhǎng)上下文,滿血版Gemini 2.0又一次登上Chatbot Arena榜首
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):4327字
谷歌Gemini 2.0 Flash Thinking升級(jí):再次登頂,推理能力顯著提升
近日,谷歌發(fā)布了Gemini 2.0 Flash Thinking推理模型的加強(qiáng)版,并再次登頂Chatbot Arena排行榜。此次升級(jí)主要體現(xiàn)在上下文窗口的擴(kuò)展和模型可靠性的提升上,谷歌AI掌門人Jeff Dean親自發(fā)信慶祝這一成果。
1. 100萬(wàn)token上下文窗口和顯著的性能提升
Gemini 2.0 Flash Thinking基于Gemini 2.0 Flash,通過引入“思維”機(jī)制增強(qiáng)推理能力。其最大亮點(diǎn)在于能夠處理高達(dá)100萬(wàn)token的長(zhǎng)上下文,允許對(duì)長(zhǎng)篇文本進(jìn)行深入分析。此次升級(jí)不僅提升了上下文理解能力,還在AIME2024(數(shù)學(xué)能力測(cè)試)、GPQA Diamond(科學(xué)能力測(cè)試)和MMMU(多模態(tài)推理能力)測(cè)試中取得了顯著進(jìn)步,數(shù)學(xué)成績(jī)更是提升了54%。
2. 強(qiáng)大的推理能力和自我糾錯(cuò)機(jī)制
Gemini 2.0 Flash Thinking能夠在多輪對(duì)話和推理中自我糾錯(cuò),并清晰地展示其思考過程。 Jeff Dean展示的demo中,模型能夠解答物理問題并解釋推理步驟。 最新模型甚至比預(yù)期運(yùn)行速度更快,有效避免了長(zhǎng)上下文模型常見的“變傻”問題,能夠保持對(duì)話連貫性,靈活運(yùn)用先前信息完成當(dāng)前任務(wù)。
3. 全面的多模態(tài)能力和Project Mariner的貢獻(xiàn)
Gemini 2.0展現(xiàn)了強(qiáng)大的多模態(tài)能力,能夠根據(jù)語(yǔ)音指令實(shí)時(shí)改變界面元素的布局,甚至理解并執(zhí)行顏色混合等復(fù)雜操作。這得益于Project Mariner項(xiàng)目,該項(xiàng)目旨在探索人機(jī)交互方式,并賦予AI理解和操作網(wǎng)頁(yè)瀏覽器的能力,類似于Claude的“computer use”功能。
4. 谷歌的“全面均衡”開發(fā)理念和未來展望
谷歌的開發(fā)理念注重模型的全面均衡發(fā)展,避免在某些領(lǐng)域表現(xiàn)突出而在其他領(lǐng)域表現(xiàn)欠佳。 Jeff Dean表示,谷歌會(huì)持續(xù)收集用戶反饋,并利用更多數(shù)據(jù)提升模型在各個(gè)方面的能力。 未來,谷歌將繼續(xù)探索3D數(shù)據(jù)等更多模態(tài),力求打造一個(gè)真正強(qiáng)大的通用模型。
5. Google AI Studio平臺(tái)及未來規(guī)劃
谷歌將Gemini系列所有模型整合在“Google AI Studio”平臺(tái),提供API密鑰、提示詞創(chuàng)建、實(shí)時(shí)對(duì)話等功能。 雖然目前平臺(tái)功能較為分散,但Jeff Dean表示,在模型正式發(fā)布后,谷歌將提供完整的技術(shù)報(bào)告,并根據(jù)用戶反饋持續(xù)改進(jìn)。
總而言之,Gemini 2.0 Flash Thinking的升級(jí)展現(xiàn)了谷歌在大型語(yǔ)言模型領(lǐng)域的持續(xù)進(jìn)步,其強(qiáng)大的推理能力、長(zhǎng)上下文理解能力和多模態(tài)能力使其在眾多競(jìng)爭(zhēng)對(duì)手中脫穎而出。 未來,谷歌在3D數(shù)據(jù)和更多模態(tài)上的探索,值得我們期待。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)