超越 Devin,姚班帶隊(duì) OpenCSG 刷新大模型編程 SWEBench 評(píng)測(cè)榜單
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:超越 Devin,姚班帶隊(duì) OpenCSG 刷新大模型編程 SWEBench 評(píng)測(cè)榜單
關(guān)鍵字:模型,解讀,代碼,公司,數(shù)字
文章來源:AI科技評(píng)論
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AI編程持續(xù)突圍。近日,來自中國大模型初創(chuàng)公司OpenCSG推出的StarShip CodeGen Agent,以23.67%的成績刷新了普林斯頓SWEBench(大模型真實(shí)編程評(píng)測(cè))排行榜,取得了全球第二名的成績,同時(shí)創(chuàng)造了非GPT-4o基模的最高紀(jì)錄(SOTA)。開放傳神(OpenCSG)成立于2023年,是一家致力于大模型生態(tài)社區(qū)建設(shè),匯集人工智能行業(yè)上下游企業(yè)鏈共同為大模型在垂直行業(yè)的應(yīng)用提供解決方案和工具平臺(tái)的公司。
SWEBench評(píng)測(cè)高度貼近真實(shí)編程場(chǎng)景,難度極高,不僅要求模型能理解需求、協(xié)調(diào)多個(gè)函數(shù)/類甚至文件的變更,還要求模型與執(zhí)行環(huán)境交互,處理超長上下文并執(zhí)行遠(yuǎn)超傳統(tǒng)代碼生成任務(wù)的復(fù)雜邏輯推理。在這種高難度的真實(shí)測(cè)試中,行業(yè)中最先進(jìn)的GPT4和Devin,也僅能解決1.74%和13.86%的問題。
OpenCSG的這一成績,標(biāo)志著國內(nèi)公司在推動(dòng)語言模型向更實(shí)用、智能和自主化方向發(fā)展邁出了領(lǐng)先的一步。1大模型編程的真實(shí)挑戰(zhàn)2024年3月,首個(gè)AI軟件工程師Devin的橫空出世,引爆了整個(gè)技術(shù)界。雖然伴隨著一系列爭議,但Devin本身強(qiáng)大的創(chuàng)新能力和巨大的潛力,帶給
原文鏈接:超越 Devin,姚班帶隊(duì) OpenCSG 刷新大模型編程 SWEBench 評(píng)測(cè)榜單
聯(lián)系作者
文章來源:AI科技評(píng)論
作者微信:aitechtalk
作者簡介:雷峰網(wǎng)旗下AI新媒體。聚焦AI前沿研究,關(guān)注AI工程落地。