Claude 3.7 Sonnet – Anthropic 推出的首款混合推理模型
Claude 3.7 Sonnet 是由 Anthropic 公司開(kāi)發(fā)的全球首款混合推理模型,具備“標(biāo)準(zhǔn)模式”和“擴(kuò)展思考模式”兩種操作方式。標(biāo)準(zhǔn)模式專(zhuān)注于快速生成響應(yīng),適用于日常對(duì)話(huà)和簡(jiǎn)單任務(wù);而擴(kuò)展思考模式則通過(guò)逐步推理來(lái)解決更復(fù)雜的問(wèn)題,尤其在數(shù)學(xué)、物理和編程領(lǐng)域表現(xiàn)卓越,編碼能力更是全面領(lǐng)先。
Claude 3.7 Sonnet是什么
Claude 3.7 Sonnet 是由 Anthropic 公司推出的創(chuàng)新混合推理模型,具有“標(biāo)準(zhǔn)模式”和“擴(kuò)展思考模式”兩種運(yùn)行方式。在標(biāo)準(zhǔn)模式下,該模型能夠迅速提供響應(yīng),適合日常交流和簡(jiǎn)單任務(wù)的處理;而在擴(kuò)展思考模式中,Claude 3.7 Sonnet通過(guò)逐步推理來(lái)應(yīng)對(duì)復(fù)雜問(wèn)題。該模型在數(shù)學(xué)、物理和編程等領(lǐng)域表現(xiàn)出色,特別是在編碼能力方面,展現(xiàn)了顯著的優(yōu)勢(shì)。同時(shí),Claude 3.7 Sonnet優(yōu)化了模型的安全性,顯著減少了不必要的拒絕率。用戶(hù)可以通過(guò) Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 進(jìn)行訪問(wèn)。

Claude 3.7 Sonnet的主要功能
- 混合推理模式:
- 標(biāo)準(zhǔn)模式:快速響應(yīng),適合日常對(duì)話(huà)及簡(jiǎn)單任務(wù)。
- 擴(kuò)展思考模式:深入自我反思與逐步推理,適合處理復(fù)雜任務(wù),如數(shù)學(xué)、物理、邏輯推理和編程。
- 復(fù)雜任務(wù)處理能力:在數(shù)學(xué)、物理和編程等需要強(qiáng)邏輯推理的領(lǐng)域表現(xiàn)卓越,基準(zhǔn)測(cè)試中成績(jī)優(yōu)異,如 SWE-bench Verified 和 TAU-bench 測(cè)試。
- 代碼協(xié)作能力:支持代碼編輯、測(cè)試執(zhí)行等開(kāi)發(fā)流程,并與 GitHub 集成,幫助開(kāi)發(fā)者修復(fù) Bug、開(kāi)發(fā)新功能及進(jìn)行全棧更新。
- 安全性提升:更準(zhǔn)確地區(qū)分惡意請(qǐng)求與正常請(qǐng)求,相比前代模型減少不必要的拒絕(減少 45%)。
- 多平臺(tái)支持:適用于免費(fèi)版、專(zhuān)業(yè)版、團(tuán)隊(duì)版和企業(yè)版訂閱計(jì)劃,通過(guò) Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 訪問(wèn)。
- 靈活的使用方式:用戶(hù)可在 API 使用中指定思考的 token 數(shù)量,輸出限制為 128K token。
Claude 3.7 Sonnet的性能表現(xiàn)
- 推理能力任務(wù)表現(xiàn):
- 在數(shù)學(xué)、物理、指令執(zhí)行和編程等任務(wù)中,擴(kuò)展思考模式下的Claude 3.7 Sonnet表現(xiàn)卓越,相比上一代模型提升超過(guò)10%。
- SWE-bench:Claude 3.7 Sonnet創(chuàng)下70.3%的高分,刷新了SOTA(State of the Art)記錄。
- 編碼能力:
- SWE-bench Verified測(cè)試:Claude 3.7 Sonnet在編碼能力上顯著提升,能夠高效解決現(xiàn)實(shí)中的軟件問(wèn)題。
- 多模態(tài)和智能體能力:
- OSWorld測(cè)試:Claude 3.7 Sonnet可通過(guò)虛擬鼠標(biāo)點(diǎn)擊和鍵盤(pán)按鍵完成相關(guān)任務(wù)。
- Pokémon 游戲測(cè)試:Claude 3.7 Sonnet憑借擴(kuò)展思考模式和智能體訓(xùn)練獲得相應(yīng)徽章,表現(xiàn)遠(yuǎn)超早期版本。
- 測(cè)試時(shí)計(jì)算Scaling:
- 串行測(cè)試時(shí)計(jì)算:在生成最終輸出前,執(zhí)行多個(gè)連續(xù)推理步驟,計(jì)算資源投入持續(xù)增加。在數(shù)學(xué)問(wèn)題求解中,準(zhǔn)確率隨著思考Token數(shù)量的增加呈對(duì)數(shù)增長(zhǎng)。
- 并行測(cè)試時(shí)計(jì)算:通過(guò)采樣多個(gè)思維過(guò)程,選擇最佳結(jié)果(如多數(shù)表決或評(píng)分模型),顯著提升模型性能。在GPQA測(cè)試中,Claude 3.7 Sonnet基于并行計(jì)算達(dá)到了84.8%的總體得分(物理學(xué)部分高達(dá)96.5%)。

Claude 3.7 Sonnet的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):https://www.anthropic.com/news/claude-3-7-sonnet
Claude 3.7 Sonnet的模型定價(jià)
- 輸入 Token:3美元/百萬(wàn)輸入 Token。
- 輸出 Token:15美元/百萬(wàn)輸出 Token。
Claude 3.7 Sonnet的應(yīng)用場(chǎng)景
- 軟件開(kāi)發(fā)與編碼:幫助開(kāi)發(fā)者處理復(fù)雜代碼庫(kù)、編寫(xiě)高質(zhì)量代碼、進(jìn)行全棧更新及修復(fù)錯(cuò)誤,支持從簡(jiǎn)單的代碼生成到復(fù)雜的系統(tǒng)架構(gòu)設(shè)計(jì)。
- 前端開(kāi)發(fā):優(yōu)化前端開(kāi)發(fā)流程,生成 HTML、CSS 和 JavaScript 代碼,支持響應(yīng)式設(shè)計(jì)與交互式界面開(kāi)發(fā)。
- 數(shù)學(xué)與科學(xué)問(wèn)題解決:基于擴(kuò)展思考模式,解決復(fù)雜的數(shù)學(xué)與物理問(wèn)題,支持邏輯推理和逐步解答。
- 企業(yè)級(jí)任務(wù)自動(dòng)化:在企業(yè)環(huán)境中,自動(dòng)處理復(fù)雜業(yè)務(wù)流程、生成報(bào)告、優(yōu)化工作流和執(zhí)行指令性任務(wù)。
- 多模態(tài)交互與協(xié)作:支持多模態(tài)輸入與輸出,適用于結(jié)合文本、圖像或其他數(shù)據(jù)類(lèi)型的復(fù)雜任務(wù),例如智能客服、教育輔助和創(chuàng)意設(shè)計(jì)。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...

粵公網(wǎng)安備 44011502001135號(hào)