剛剛,全球首個混合推理模型Claude 3.7降世!最強編程大腦暴擊DeepSeek R1
原標(biāo)題:剛剛,全球首個混合推理模型Claude 3.7降世!最強編程大腦暴擊DeepSeek R1
文章來源:新智元
內(nèi)容字數(shù):9092字
Anthropic發(fā)布Claude 3.7 Sonnet:混合推理模型引領(lǐng)AI新紀(jì)元
Anthropic公司近日重磅發(fā)布了其最新的大型語言模型Claude 3.7 Sonnet,這款模型被譽為迄今為止最智能的Claude系列模型,也是全球首個混合推理模型。其核心突破在于結(jié)合了兩種思考方式:即時響應(yīng)和逐步擴展思考,顯著提升了模型在各個領(lǐng)域的性能。
1. 混合推理:即時與擴展思考的完美結(jié)合
Claude 3.7 Sonnet 的獨特之處在于它能夠根據(jù)用戶需求,在即時響應(yīng)和逐步展示詳細思考過程(擴展思考模式)之間切換。擴展思考模式下,模型會詳細展現(xiàn)其推理步驟,如同人類思考過程一樣,極大提升了模型在復(fù)雜問題上的解決能力。用戶可以通過API精確控制模型的思考時間和token數(shù)量,在速度和質(zhì)量之間取得平衡。
2. 性能顯著提升,編碼能力尤其突出
在多項基準(zhǔn)測試中,Claude 3.7 Sonnet的表現(xiàn)令人矚目。尤其在數(shù)學(xué)、物理、指令執(zhí)行和編程等方面,其性能大幅超越了上一代模型Claude 3.5 Sonnet,數(shù)學(xué)和編碼能力提升超過10%。在編碼測試中,它甚至擊敗了o3-mini和DeepSeek R1等競爭對手,與Grok 3不相上下,在SWE-bench上取得了70.3%的高分,成為名副其實的“軟件工程AI”。
3. Claude Code:智能體編程工具的驚艷亮相
除了模型本身的升級,Anthropic還同步發(fā)布了智能體編程工具Claude Code(預(yù)覽版)。該工具能夠協(xié)助開發(fā)者完成大量的工程任務(wù),例如搜索和閱讀代碼、編輯文件、編寫和運行測試、提交代碼到GitHub等。在早期測試中,Claude Code甚至能夠一次性完類需要45分鐘才能完成的任務(wù),大大提升了開發(fā)效率。
4. 行為擴展與持續(xù)交互能力
Claude 3.7 Sonnet 具備“行為擴展”能力,能夠迭代調(diào)用函數(shù)、響應(yīng)環(huán)境變化,并持續(xù)操作直到完成開放式任務(wù)。這使得它在與虛擬計算機交互的任務(wù)中表現(xiàn)出色,并在OSWorld評估中取得了優(yōu)異成績。更令人印象深刻的是,在《口袋妖怪:紅》游戲中,它成功挑戰(zhàn)并擊敗了三位道館館主,展現(xiàn)了其強大的持續(xù)學(xué)習(xí)和策略調(diào)整能力。
5. 串行與并行測試時計算:提升模型性能的關(guān)鍵
Claude 3.7 Sonnet 在擴展思考模式下采用串行測試時計算,通過逐步增加計算資源投入來提升性能。同時,Anthropic也在探索并行測試時計算,通過多個思維過程的采樣和選擇最佳結(jié)果來進一步優(yōu)化模型性能,在GPQA評估中取得了顯著進展。
6. 免費開放,引領(lǐng)AI發(fā)展新方向
值得一提的是,Claude 3.7 Sonnet 目前已免費開放,用戶可以通過Claude.ai平臺、Anthropic API、Amazon Bedrock以及Google Cloud的Vertex AI進行訪問。Anthropic此舉無疑將進一步推動AI領(lǐng)域的發(fā)展,并促進更多創(chuàng)新應(yīng)用的誕生。
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展,關(guān)注人機融合、人工智能和機器人對人類社會與文明進化的影響,領(lǐng)航中國新智能時代。