原標題:Claude 3.5兩小時暴虐50多名專家,編程10倍速飆升!但8小時曝出驚人短板
文章來源:新智元
內容字數:7797字
AI自主研發能力的現狀與挑戰
隨著人工智能技術的快速發展,AI在科研領域的表現引發了廣泛關注。最近的研究表明,Claude 3.5 Sonnet和o1-preview在短時間內的研發任務中表現出色,擊敗了50多位人類專家。然而,隨著時間的延長,人類專家在更長的任務中逐漸展現出明顯的優勢,這一現象引發了對AI自主研發能力的深入探討。
1. AI與人類專家的比較
在僅有2小時的研發任務中,AI智能體表現優異,尤其是在編程速度方面,能夠以超越人類10倍的速度生成和測試解決方案。例如,在一個優化前綴和運算的任務中,o1-preview成功將運行時間壓縮至0.64毫秒,超過了人類專家的最佳方案。然而,在8小時的任務中,AI的性能提升趨于平緩,而人類專家則展現出了更強的進步能力。
2. 研究方法與評估框架
研究使用了RE-Bench設計架構,評估了七個具有挑戰性的機器學習問題。每個評估環境都設定了明確的目標,提供初始解決方案,并對智能體的表現進行歸一化。此外,研究人員對比了不同智能體在32小時內的最高性能,發現AI智能體在某些環境中表現良好,但整體上仍未達到人類專家的水平。
3. AI智能體的成功與局限性
AI智能體的成功主要歸因于其廣泛的知識儲備及高頻率的嘗試能力。然而,仍存在多樣性不足和指令理解錯誤的問題,導致AI在某些情況下無法找到最佳解決方案。例如,在優化內核的任務中,AI能夠快速找到解決方案,但在其他環境中的表現卻不盡如人意。
4. 未來展望與改進方向
研究人員認為,AI智能體在短期高保真反饋和低復雜度的環境中更具優勢。未來,提升評估環境的代表性、降低評估成本及改善指令理解能力將是關鍵。同時,研究者希望通過更好地管理計算資源和優化算法,進一步縮小AI與人類專家之間的差距。
總的來說,AI在自主研發領域的能力正在不斷提升,但要實現與人類專家相當的水平,仍需克服諸多挑戰。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。