OpenAI「草莓」模型再次跳票，凌晨發(fā)布的SWE-bench Verified是個啥？

AIGC動態(tài)1年前 (2024)發(fā)布機(jī)器之心

AIGC動態(tài)歡迎閱讀

原標(biāo)題：OpenAI「草莓」模型再次跳票，凌晨發(fā)布的SWE-bench Verified是個啥？
關(guān)鍵字：樣本,測試,問題,注釋,解決方案
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

機(jī)器之心報(bào)道
編輯：張倩、小舟有人說，「我們期待的是草莓，但他們發(fā)布的是羽衣甘藍(lán)?！刮覀儊砜纯催@個「羽衣甘藍(lán)」是做什么用的。一直以來，大模型的編程能力都備受關(guān)注，超強(qiáng) AI 程序員 Devin 的問世更是將「AI 能否替代程序員」這一話題推上了風(fēng)口浪尖。最近，Devin 也迎來了新對手 —— 初創(chuàng)公司 Cosine 推出的自主 AI 程序員 Genie。該公司表示，Genie 的表現(xiàn)輕松超越了 Devin，在第三方基準(zhǔn)測試 SWE-bench 上的得分為 30%，而 Devin 的得分僅為 13.8%。這個 SWE-Bench 是一個用于評估 LLM 解決 GitHub 上真實(shí)軟件問題能力的基準(zhǔn)測試數(shù)據(jù)集。它收集了來自 12 個流行的 Python 倉庫的 2,294 個 Issue-Pull Request 對。在測試時(shí)，LLM 會拿到一個代碼庫和 issue 描述，然后生成一個補(bǔ)丁來解決 issue 描述的問題。這個數(shù)據(jù)集在 AI 編程能力的評估中已被廣泛使用。
在 AI 編程能力進(jìn)化的同時(shí)，這個基準(zhǔn)也在進(jìn)化。今天凌晨，網(wǎng)傳的 OpenAI「草莓」模型再次跳票，但 OpenAI 確

原文鏈接：OpenAI「草莓」模型再次跳票，凌晨發(fā)布的SWE-bench Verified是個啥？

聯(lián)系作者

文章來源：機(jī)器之心
作者微信：
作者簡介：

閱讀原文

# AIGC動態(tài)# 樣本 # 注釋 # 測試 # 解決方案 # 問題

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

OpenAI「草莓」模型再次跳票，凌晨發(fā)布的SWE-bench Verified是個啥？

AIGC動態(tài)歡迎閱讀

內(nèi)容摘要：

聯(lián)系作者

?一夜之間，谷歌版GPT-4o和AI手機(jī)全上市了

沒有等來OpenAI開源GPT-4o，等來了開源版VITA

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

OpenAI「草莓」模型再次跳票，凌晨發(fā)布的SWE-bench Verified是個啥？

AIGC動態(tài)歡迎閱讀

內(nèi)容摘要：

聯(lián)系作者

?一夜之間，谷歌版GPT-4o和AI手機(jī)全上市了

沒有等來OpenAI開源GPT-4o，等來了開源版VITA

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？

OpenAI「草莓」模型再次跳票，凌晨發(fā)布的SWE-bench Verified是個啥？

?一夜之間，谷歌版GPT-4o和AI手機(jī)全上市了

沒有等來OpenAI開源GPT-4o，等來了開源版VITA

玩虛擬模特？