從專家到傻瓜:Claude 3.5兩小時(shí)狂飆編程,8小時(shí)后卻現(xiàn)驚人短板!
原標(biāo)題:Claude 3.5兩小時(shí)暴虐50多名專家,編程10倍速飆升!但8小時(shí)曝出驚人短板
文章來源:新智元
內(nèi)容字?jǐn)?shù):7797字
AI自主研發(fā)能力的現(xiàn)狀與挑戰(zhàn)
隨著人工智能技術(shù)的快速發(fā)展,AI在科研領(lǐng)域的表現(xiàn)引發(fā)了廣泛關(guān)注。最近的研究表明,Claude 3.5 Sonnet和o1-preview在短時(shí)間內(nèi)的研發(fā)任務(wù)中表現(xiàn)出色,擊敗了50多位人類專家。然而,隨著時(shí)間的延長(zhǎng),人類專家在更長(zhǎng)的任務(wù)中逐漸展現(xiàn)出明顯的優(yōu)勢(shì),這一現(xiàn)象引發(fā)了對(duì)AI自主研發(fā)能力的深入探討。
1. AI與人類專家的比較
在僅有2小時(shí)的研發(fā)任務(wù)中,AI智能體表現(xiàn)優(yōu)異,尤其是在編程速度方面,能夠以超越人類10倍的速度生成和測(cè)試解決方案。例如,在一個(gè)優(yōu)化前綴和運(yùn)算的任務(wù)中,o1-preview成功將運(yùn)行時(shí)間壓縮至0.64毫秒,超過了人類專家的最佳方案。然而,在8小時(shí)的任務(wù)中,AI的性能提升趨于平緩,而人類專家則展現(xiàn)出了更強(qiáng)的進(jìn)步能力。
2. 研究方法與評(píng)估框架
研究使用了RE-Bench設(shè)計(jì)架構(gòu),評(píng)估了七個(gè)具有挑戰(zhàn)性的機(jī)器學(xué)習(xí)問題。每個(gè)評(píng)估環(huán)境都設(shè)定了明確的目標(biāo),提供初始解決方案,并對(duì)智能體的表現(xiàn)進(jìn)行歸一化。此外,研究人員對(duì)比了不同智能體在32小時(shí)內(nèi)的最高性能,發(fā)現(xiàn)AI智能體在某些環(huán)境中表現(xiàn)良好,但整體上仍未達(dá)到人類專家的水平。
3. AI智能體的成功與局限性
AI智能體的成功主要?dú)w因于其廣泛的知識(shí)儲(chǔ)備及高頻率的嘗試能力。然而,仍存在多樣性不足和指令理解錯(cuò)誤的問題,導(dǎo)致AI在某些情況下無法找到最佳解決方案。例如,在優(yōu)化內(nèi)核的任務(wù)中,AI能夠快速找到解決方案,但在其他環(huán)境中的表現(xiàn)卻不盡如人意。
4. 未來展望與改進(jìn)方向
研究人員認(rèn)為,AI智能體在短期高保真反饋和低復(fù)雜度的環(huán)境中更具優(yōu)勢(shì)。未來,提升評(píng)估環(huán)境的代表性、降低評(píng)估成本及改善指令理解能力將是關(guān)鍵。同時(shí),研究者希望通過更好地管理計(jì)算資源和優(yōu)化算法,進(jìn)一步縮小AI與人類專家之間的差距。
總的來說,AI在自主研發(fā)領(lǐng)域的能力正在不斷提升,但要實(shí)現(xiàn)與人類專家相當(dāng)?shù)乃剑孕杩朔T多挑戰(zhàn)。
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡(jiǎn)介:智能+中國主平臺(tái),致力于推動(dòng)中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國新智能時(shí)代。