GPT-5-Codex 發(fā)布，可以7小時(shí)連續(xù)編程，但OpenAI 封殺了API。。

AIGC動(dòng)態(tài)7天前更新夕小瑤科技說

5 0 0

GPT-5-Codex 發(fā)布，可以7小時(shí)連續(xù)編程，但OpenAI 封殺了API。。核心觀點(diǎn)：

OpenAI 發(fā)布了 GPT-5-Codex，一個(gè)能夠完成軟件開發(fā)任務(wù)的“工程智能體”，但僅通過 CLI、IDE 插件和網(wǎng)頁端使用，不開放 API。Codex 在代碼重構(gòu)和處理復(fù)雜任務(wù)方面表現(xiàn)出色，能根據(jù)任務(wù)復(fù)雜度動(dòng)態(tài)分配計(jì)算資源，并大幅提升了代碼審查的效率和質(zhì)量。

凌晨時(shí)分，OpenAI 悄然推出了備受矚目的 GPT-5-Codex，然而，對(duì)于期待通過 API 調(diào)用的開發(fā)者而言，這無疑是一個(gè)令人沮喪的消息。OpenAI 此次做出了一個(gè)重大的戰(zhàn)略決定：Codex 將不提供 API 接口。這意味著開發(fā)者無法再通過 API Key 來調(diào)用這一強(qiáng)大的模型，其使用途徑將僅限于命令行界面（CLI）、集成開發(fā)環(huán)境（IDE）插件以及 Codex 的官方網(wǎng)頁端。

GPT-5-Codex 的核心使命是“代為執(zhí)行”，其能力已遠(yuǎn)超以往的局限。它不再僅僅是編寫幾行代碼的助手，而是能夠從用戶提出需求的那一刻起，完成項(xiàng)目的搭建、測試的運(yùn)行、缺陷的修復(fù)、截圖的生成，乃至提交拉取請(qǐng)求（PR）的全流程工作。更令人驚嘆的是，它能夠一口氣連續(xù)工作七小時(shí)不間斷。雖然 Codex 的概念在 GPT-3 時(shí)代便已初露端倪，但 GPT-5-Codex 標(biāo)志著 OpenAI 首次將其打造成為一個(gè)真正能夠交付實(shí)際成果的“工程智能體”。

那么，GPT-5-Codex 的實(shí)力究竟有多強(qiáng)？一組基準(zhǔn)測試數(shù)據(jù)或許能說明問題。在 SWE-bench 基準(zhǔn)測試中，Codex 的通過率從 GPT-5 的 72.8% 提升至 74.5%。雖然增幅看似不大，但這背后代表著模型在“修復(fù) Bug、增加功能、閱讀文檔”等傳統(tǒng)開發(fā)任務(wù)上的穩(wěn)定性得到了顯著增強(qiáng)。

然而，當(dāng)任務(wù)涉及到代碼重構(gòu)時(shí)，兩者之間的差距便顯現(xiàn)出來。在處理大型代碼庫的結(jié)構(gòu)性改造任務(wù)時(shí)，GPT-5 的成功率僅為 33.9%，而 Codex 則達(dá)到了 51.3%，提升幅度接近 20%。這類任務(wù)與編寫簡短函數(shù)截然不同，需要模型具備上下文聯(lián)動(dòng)能力、理解依賴關(guān)系，并能通過調(diào)試逐步解決問題。這表明 Codex 的訓(xùn)練重點(diǎn)顯然聚焦于此類高難度挑戰(zhàn)。

尤為值得關(guān)注的是，GPT-5-Codex 在“動(dòng)態(tài)思維”方面的表現(xiàn)，即模型在不同復(fù)雜度任務(wù)下消耗的 Token 數(shù)量（可視為“模型輸出量”）。通過分析 OpenAI 員工使用 Codex CLI 的海量數(shù)據(jù)，并對(duì)各級(jí)復(fù)雜度任務(wù)的 Token 用量進(jìn)行百分位曲線分析，得出了以下結(jié)論：在最簡單的任務(wù)（前 10%）中，GPT-5-Codex 采取了精簡策略，其計(jì)算量比 GPT-5 減少了 93.7%；而在最復(fù)雜的任務(wù)（后 10%）中，Codex 則會(huì)投入更多資源，其 Token 消耗量比 GPT-5 增加了 102.2%，用于進(jìn)行邏輯推理、代碼編輯、運(yùn)行測試和迭代。簡而言之，它能夠根據(jù)任務(wù)的簡繁程度，實(shí)現(xiàn)“小任務(wù)快輸出，大項(xiàng)目細(xì)思考”，這正是工程智能體應(yīng)有的特質(zhì)。對(duì)于高度依賴代碼審查的團(tuán)隊(duì)而言，Codex 還能顯著節(jié)省人工精力。

OpenAI 對(duì) Codex 的審查能力也進(jìn)行了評(píng)估，并通過三組數(shù)據(jù)來佐證其優(yōu)越性：錯(cuò)誤建議比例方面，GPT-5 的錯(cuò)誤率為 13.7%，而 Codex 降至 4.4%；高價(jià)值建議比例方面，GPT-5 僅為 39.4%，Codex 則提升至 52.4%；平均每個(gè) PR 的留言數(shù)量方面，GPT-5 為 1.32 條，Codex 則優(yōu)化為 0.93 條，這意味著它能更精準(zhǔn)地傳達(dá)關(guān)鍵信息，減少不必要的溝通成本。

這些測試成績的意義遠(yuǎn)不止于更高的 Benchmark 分?jǐn)?shù)，更重要的是，它證明了 Agent 式 AI 在以下三個(gè)方面的能力：能夠根據(jù)任務(wù)復(fù)雜度合理分配時(shí)間；能夠理解系統(tǒng)級(jí)的上下文信息；能夠輸出“工程意義上的結(jié)果”，即能夠?qū)嶋H運(yùn)行、經(jīng)過測試并最終合并到主分支的代碼，而非僅僅是看起來美觀的代碼片段。這也解釋了 OpenAI 強(qiáng)烈推薦“將 Codex 僅用于 Codex 系統(tǒng)內(nèi)部”的原因。

目前，Codex 已經(jīng)實(shí)現(xiàn)了與用戶開發(fā)流程的深度集成，覆蓋了開發(fā)者可能編寫代碼的各個(gè)環(huán)節(jié)——從終端、IDE，到網(wǎng)頁端、GitHub，甚至 ChatGPT 的手機(jī) App。無論用戶身處何種開發(fā)環(huán)境，Codex 都能無縫銜接，隨時(shí)響應(yīng)需求。

此外，Codex 還進(jìn)行了用戶體驗(yàn)的優(yōu)化。CLI 界面更新了 UI，支持附加截圖、線程圖、上傳設(shè)計(jì)格式等功能，使得工作進(jìn)度的展示和交互記錄更加精細(xì)。在處理復(fù)雜任務(wù)時(shí)，它能夠自動(dòng)生成待辦列表，并進(jìn)行環(huán)境搭建和依賴分析，甚至能夠即時(shí)執(zhí)行環(huán)境初始化和 pip install 等操作。IDE 插件則支持 VS Code、Cursor 等主流編輯器，能夠根據(jù)用戶打開的文件自動(dòng)理解當(dāng)前任務(wù)，并支持在編輯器內(nèi)直接進(jìn)行代碼編輯，無需重復(fù)解釋指令，同時(shí)能夠無縫跳轉(zhuǎn)到云端任務(wù)，確保上下文的完整性。而 Codex Cloud 則代表了自動(dòng)化效率的上限，它能夠模擬瀏覽器操作，查看生成的網(wǎng)頁或 UI 頁面，并根據(jù)用戶提供的截圖進(jìn)行渲染，將運(yùn)行結(jié)果的截圖和日志展示給用戶，并直接提交到 GitHub PR。

在定價(jià)方面，Codex 已被納入 ChatGPT 的全套訂閱計(jì)劃中，包括 Plus、Pro、Business 和 Enterprise 等版本。雖然使用次數(shù)有限制，但總體而言，提供的額度并不算少。例如，Plus 用戶每 5 小時(shí)可執(zhí)行 30 至 150 次本地任務(wù)，每周有總量限制。Pro 用戶則享有更高的調(diào)用次數(shù)，每 5 小時(shí)約支持 300 至 1500 次本地調(diào)用，并附帶“云端任務(wù)特批額度”。Business 和 Edu 版本可通過購買積分進(jìn)行額外擴(kuò)容，而 Enterprise 版本則采用共享池模式，按使用量計(jì)費(fèi)。

Codex 并非第一個(gè)涉足編程 Agent 領(lǐng)域的公司，也必然不會(huì)是最后一個(gè)。但此次發(fā)布可能標(biāo)志著 Agent 從單純的“產(chǎn)品功能”向“開發(fā)流程”的轉(zhuǎn)變?，F(xiàn)在，關(guān)鍵在于我們是否敢于將部分真實(shí)項(xiàng)目委托給它來完成。

閱讀原文