OpenAI「草莓」模型再次跳票,凌晨發(fā)布的SWE-bench Verified是個(gè)啥?
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:OpenAI「草莓」模型再次跳票,凌晨發(fā)布的SWE-bench Verified是個(gè)啥?
關(guān)鍵字:樣本,測(cè)試,問(wèn)題,注釋,解決方案
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:張倩、小舟有人說(shuō),「我們期待的是草莓,但他們發(fā)布的是羽衣甘藍(lán)?!刮覀儊?lái)看看這個(gè)「羽衣甘藍(lán)」是做什么用的。一直以來(lái),大模型的編程能力都備受關(guān)注,超強(qiáng) AI 程序員 Devin 的問(wèn)世更是將「AI 能否替代程序員」這一話題推上了風(fēng)口浪尖。最近,Devin 也迎來(lái)了新對(duì)手 —— 初創(chuàng)公司 Cosine 推出的自主 AI 程序員 Genie。該公司表示,Genie 的表現(xiàn)輕松超越了 Devin,在第三方基準(zhǔn)測(cè)試 SWE-bench 上的得分為 30%,而 Devin 的得分僅為 13.8%。這個(gè) SWE-Bench 是一個(gè)用于評(píng)估 LLM 解決 GitHub 上真實(shí)軟件問(wèn)題能力的基準(zhǔn)測(cè)試數(shù)據(jù)集。它收集了來(lái)自 12 個(gè)流行的 Python 倉(cāng)庫(kù)的 2,294 個(gè) Issue-Pull Request 對(duì)。在測(cè)試時(shí),LLM 會(huì)拿到一個(gè)代碼庫(kù)和 issue 描述,然后生成一個(gè)補(bǔ)丁來(lái)解決 issue 描述的問(wèn)題。這個(gè)數(shù)據(jù)集在 AI 編程能力的評(píng)估中已被廣泛使用。
在 AI 編程能力進(jìn)化的同時(shí),這個(gè)基準(zhǔn)也在進(jìn)化。今天凌晨,網(wǎng)傳的 OpenAI「草莓」模型再次跳票,但 OpenAI 確
原文鏈接:OpenAI「草莓」模型再次跳票,凌晨發(fā)布的SWE-bench Verified是個(gè)啥?
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介: