原標題:剛剛,全球首個混合推理模型Claude 3.7降世!最強編程大腦暴擊DeepSeek R1
文章來源:新智元
內容字數:9092字
Anthropic發布Claude 3.7 Sonnet:混合推理模型引領AI新紀元
Anthropic公司近日重磅發布了其最新的大型語言模型Claude 3.7 Sonnet,這款模型被譽為迄今為止最智能的Claude系列模型,也是全球首個混合推理模型。其核心突破在于結合了兩種思考方式:即時響應和逐步擴展思考,顯著提升了模型在各個領域的性能。
1. 混合推理:即時與擴展思考的完美結合
Claude 3.7 Sonnet 的獨特之處在于它能夠根據用戶需求,在即時響應和逐步展示詳細思考過程(擴展思考模式)之間切換。擴展思考模式下,模型會詳細展現其推理步驟,如同人類思考過程一樣,極大提升了模型在復雜問題上的解決能力。用戶可以通過API精確控制模型的思考時間和token數量,在速度和質量之間取得平衡。
2. 性能顯著提升,編碼能力尤其突出
在多項基準測試中,Claude 3.7 Sonnet的表現令人矚目。尤其在數學、物理、指令執行和編程等方面,其性能大幅超越了上一代模型Claude 3.5 Sonnet,數學和編碼能力提升超過10%。在編碼測試中,它甚至擊敗了o3-mini和DeepSeek R1等競爭對手,與Grok 3不相上下,在SWE-bench上取得了70.3%的高分,成為名副其實的“軟件工程AI”。
3. Claude Code:智能體編程工具的驚艷亮相
除了模型本身的升級,Anthropic還同步發布了智能體編程工具Claude Code(預覽版)。該工具能夠協助開發者完成大量的工程任務,例如搜索和閱讀代碼、編輯文件、編寫和運行測試、提交代碼到GitHub等。在早期測試中,Claude Code甚至能夠一次性完類需要45分鐘才能完成的任務,大大提升了開發效率。
4. 行為擴展與持續交互能力
Claude 3.7 Sonnet 具備“行為擴展”能力,能夠迭代調用函數、響應環境變化,并持續操作直到完成開放式任務。這使得它在與虛擬計算機交互的任務中表現出色,并在OSWorld評估中取得了優異成績。更令人印象深刻的是,在《口袋妖怪:紅》游戲中,它成功挑戰并擊敗了三位道館館主,展現了其強大的持續學習和策略調整能力。
5. 串行與并行測試時計算:提升模型性能的關鍵
Claude 3.7 Sonnet 在擴展思考模式下采用串行測試時計算,通過逐步增加計算資源投入來提升性能。同時,Anthropic也在探索并行測試時計算,通過多個思維過程的采樣和選擇最佳結果來進一步優化模型性能,在GPQA評估中取得了顯著進展。
6. 免費開放,引領AI發展新方向
值得一提的是,Claude 3.7 Sonnet 目前已免費開放,用戶可以通過Claude.ai平臺、Anthropic API、Amazon Bedrock以及Google Cloud的Vertex AI進行訪問。Anthropic此舉無疑將進一步推動AI領域的發展,并促進更多創新應用的誕生。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
相關文章
