首個AI軟件工程師Devin完整技術(shù)報告出爐,還有人用GPT做出了「復(fù)刻版」
AIGC動態(tài)歡迎閱讀
原標(biāo)題:首個AI軟件工程師Devin完整技術(shù)報告出爐,還有人用GPT做出了「復(fù)刻版」
關(guān)鍵字:測試,問題,報告,團隊,智能
文章來源:機器之心
內(nèi)容字?jǐn)?shù):8736字
內(nèi)容摘要:
機器之心報道
編輯:杜偉、大盤雞從編碼、編譯到調(diào)試、驗證,AI 智能體能做的事情更多了。這周三,Cognition AI 團隊發(fā)布的首個 AI 軟件工程師 Devin 引爆了 AI 社區(qū),引發(fā)了人們對程序員這個職業(yè)未來前景的熱議。在對 Devin 的評估中,團隊使用了 SWE-bench。這是一個由 GitHub 問題和拉取請求組成的軟件工程系統(tǒng)的自動化基準(zhǔn)測試。他們認(rèn)為 SWE-bench 是一個不錯的選擇,它確定性地評估(通過單元測試)系統(tǒng)解決現(xiàn)實世界代碼庫問題的能力,并與 HumanEval 等僅限于功能的基準(zhǔn)測試不同。
從結(jié)果來看,在 SWE-Bench 基礎(chǔ)測試中,無需人類輔助,Devin 就可以解決 13.86% 的問題。而當(dāng)前 SOTA 模型,在沒有人類幫忙的情況下,只能完成 1.96% 的問題。即使提供了要編輯(輔助)的確切文件,當(dāng)前 SOTA 模型也只能解決 4.80% 的問題。數(shù)據(jù)集
具體來講,SWE-bench 是一個包含 2294 個問題和 GitHub 流行開源 Python 存儲庫中拉取請求(pull request)的數(shù)據(jù)集,目的是測試系統(tǒng)編寫真實代碼
原文鏈接:首個AI軟件工程師Devin完整技術(shù)報告出爐,還有人用GPT做出了「復(fù)刻版」
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺