
AIGC動態歡迎閱讀
原標題:GPT-4單項僅得7.1分,揭露大模型代碼能力三大短板,最新基準測試來了
關鍵字:模型,代碼,騰訊,報告,字節跳動
文章來源:量子位
內容字數:7296字
內容摘要:
DevBench團隊 投稿量子位 | 公眾號 QbitAI首個AI軟件工程師Devin正式亮相,立即引爆了整個技術界。
Devin不僅能夠輕松解決編碼任務,更可以自主完成軟件開發的整個周期——從項目規劃到部署,涵蓋但不限于構建網站、自主尋找并修復 BUG、訓練以及微調AI模型等。
這種 “強到逆天” 的軟件開發能力,讓一眾碼農紛紛絕望,直呼:“程序員的末日真來了?”
在一眾測試成績中,Devin在SWE-Bench基準測試中的表現尤為引人注目。
SWE-Bench是一個評估AI軟件工程能力的測試,重點考察大模型解決實際 GitHub 問題的能力。
Devin以解決13.86%的問題率高居榜首,“秒殺”了GPT-4僅有的 1.74%得分,將一眾AI大模型遠遠甩在后面。
這強大的性能讓人不禁浮想聯翩:“未來的軟件開發中,AI將扮演怎樣的角色?”
上海人工智能實驗室聯合字節跳動SE Lab的研究人員以及SWE-Bench團隊,提出了一個新測試基準DevBench,首次揭秘大模型在多大程度上可以從PRD出發,完成一個完整項目的設計、開發、測試。
具體地說,DevBench首次對大模型進行了
原文鏈接:GPT-4單項僅得7.1分,揭露大模型代碼能力三大短板,最新基準測試來了
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...

粵公網安備 44011502001135號