超越 Devin，姚班帶隊 OpenCSG 刷新大模型編程 SWEBench 評測榜單

AIGC動態(tài)1年前 (2024)發(fā)布 AI科技評論

AIGC動態(tài)歡迎閱讀

原標(biāo)題：超越 Devin，姚班帶隊 OpenCSG 刷新大模型編程 SWEBench 評測榜單
關(guān)鍵字：模型,解讀,代碼,公司,數(shù)字
文章來源：AI科技評論
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

AI編程持續(xù)突圍。近日，來自中國大模型初創(chuàng)公司OpenCSG推出的StarShip CodeGen Agent，以23.67%的成績刷新了普林斯頓SWEBench(大模型真實編程評測)排行榜，取得了全球第二名的成績，同時創(chuàng)造了非GPT-4o基模的最高紀(jì)錄（SOTA）。開放傳神（OpenCSG）成立于2023年，是一家致力于大模型生態(tài)社區(qū)建設(shè)，匯集人工智能行業(yè)上下游企業(yè)鏈共同為大模型在垂直行業(yè)的應(yīng)用提供解決方案和工具平臺的公司。
SWEBench評測高度貼近真實編程場景，難度極高，不僅要求模型能理解需求、協(xié)調(diào)多個函數(shù)/類甚至文件的變更，還要求模型與執(zhí)行環(huán)境交互，處理超長上下文并執(zhí)行遠(yuǎn)超傳統(tǒng)代碼生成任務(wù)的復(fù)雜邏輯推理。在這種高難度的真實測試中，行業(yè)中最先進(jìn)的GPT4和Devin，也僅能解決1.74%和13.86%的問題。
OpenCSG的這一成績，標(biāo)志著國內(nèi)公司在推動語言模型向更實用、智能和自主化方向發(fā)展邁出了領(lǐng)先的一步。1大模型編程的真實挑戰(zhàn)2024年3月，首個AI軟件工程師Devin的橫空出世，引爆了整個技術(shù)界。雖然伴隨著一系列爭議，但Devin本身強(qiáng)大的創(chuàng)新能力和巨大的潛力，帶給

原文鏈接：超越 Devin，姚班帶隊 OpenCSG 刷新大模型編程 SWEBench 評測榜單