才過了一個月,數學能力就提升了 10%
原標題:1M長上下文,滿血版Gemini 2.0又一次登上Chatbot Arena榜首
文章來源:機器之心
內容字數:4327字
谷歌Gemini 2.0 Flash Thinking升級:再次登頂,推理能力顯著提升
近日,谷歌發布了Gemini 2.0 Flash Thinking推理模型的加強版,并再次登頂Chatbot Arena排行榜。此次升級主要體現在上下文窗口的擴展和模型可靠性的提升上,谷歌AI掌門人Jeff Dean親自發信慶祝這一成果。
1. 100萬token上下文窗口和顯著的性能提升
Gemini 2.0 Flash Thinking基于Gemini 2.0 Flash,通過引入“思維”機制增強推理能力。其最大亮點在于能夠處理高達100萬token的長上下文,允許對長篇文本進行深入分析。此次升級不僅提升了上下文理解能力,還在AIME2024(數學能力測試)、GPQA Diamond(科學能力測試)和MMMU(多模態推理能力)測試中取得了顯著進步,數學成績更是提升了54%。
2. 強大的推理能力和自我糾錯機制
Gemini 2.0 Flash Thinking能夠在多輪對話和推理中自我糾錯,并清晰地展示其思考過程。 Jeff Dean展示的demo中,模型能夠解答物理問題并解釋推理步驟。 最新模型甚至比預期運行速度更快,有效避免了長上下文模型常見的“變傻”問題,能夠保持對話連貫性,靈活運用先前信息完成當前任務。
3. 全面的多模態能力和Project Mariner的貢獻
Gemini 2.0展現了強大的多模態能力,能夠根據語音指令實時改變界面元素的布局,甚至理解并執行顏色混合等復雜操作。這得益于Project Mariner項目,該項目旨在探索人機交互方式,并賦予AI理解和操作網頁瀏覽器的能力,類似于Claude的“computer use”功能。
4. 谷歌的“全面均衡”開發理念和未來展望
谷歌的開發理念注重模型的全面均衡發展,避免在某些領域表現突出而在其他領域表現欠佳。 Jeff Dean表示,谷歌會持續收集用戶反饋,并利用更多數據提升模型在各個方面的能力。 未來,谷歌將繼續探索3D數據等更多模態,力求打造一個真正強大的通用模型。
5. Google AI Studio平臺及未來規劃
谷歌將Gemini系列所有模型整合在“Google AI Studio”平臺,提供API密鑰、提示詞創建、實時對話等功能。 雖然目前平臺功能較為分散,但Jeff Dean表示,在模型正式發布后,谷歌將提供完整的技術報告,并根據用戶反饋持續改進。
總而言之,Gemini 2.0 Flash Thinking的升級展現了谷歌在大型語言模型領域的持續進步,其強大的推理能力、長上下文理解能力和多模態能力使其在眾多競爭對手中脫穎而出。 未來,谷歌在3D數據和更多模態上的探索,值得我們期待。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺