從專家到傻瓜：Claude 3.5兩小時狂飆編程，8小時后卻現驚人短板！

原標題：Claude 3.5兩小時暴虐50多名專家，編程10倍速飆升！但8小時曝出驚人短板
文章來源：新智元
內容字數：7797字

AI自主研發能力的現狀與挑戰

隨著人工智能技術的快速發展，AI在科研領域的表現引發了廣泛關注。最近的研究表明，Claude 3.5 Sonnet和o1-preview在短時間內的研發任務中表現出色，擊敗了50多位人類專家。然而，隨著時間的延長，人類專家在更長的任務中逐漸展現出明顯的優勢，這一現象引發了對AI自主研發能力的深入探討。

1. AI與人類專家的比較

在僅有2小時的研發任務中，AI智能體表現優異，尤其是在編程速度方面，能夠以超越人類10倍的速度生成和測試解決方案。例如，在一個優化前綴和運算的任務中，o1-preview成功將運行時間壓縮至0.64毫秒，超過了人類專家的最佳方案。然而，在8小時的任務中，AI的性能提升趨于平緩，而人類專家則展現出了更強的進步能力。

2. 研究方法與評估框架

研究使用了RE-Bench設計架構，評估了七個具有挑戰性的機器學習問題。每個評估環境都設定了明確的目標，提供初始解決方案，并對智能體的表現進行歸一化。此外，研究人員對比了不同智能體在32小時內的最高性能，發現AI智能體在某些環境中表現良好，但整體上仍未達到人類專家的水平。

3. AI智能體的成功與局限性

AI智能體的成功主要歸因于其廣泛的知識儲備及高頻率的嘗試能力。然而，仍存在多樣性不足和指令理解錯誤的問題，導致AI在某些情況下無法找到最佳解決方案。例如，在優化內核的任務中，AI能夠快速找到解決方案，但在其他環境中的表現卻不盡如人意。

4. 未來展望與改進方向

研究人員認為，AI智能體在短期高保真反饋和低復雜度的環境中更具優勢。未來，提升評估環境的代表性、降低評估成本及改善指令理解能力將是關鍵。同時，研究者希望通過更好地管理計算資源和優化算法，進一步縮小AI與人類專家之間的差距。

總的來說，AI在自主研發領域的能力正在不斷提升，但要實現與人類專家相當的水平，仍需克服諸多挑戰。

聯系作者

文章來源：新智元
作者微信：
作者簡介：智能+中國主平臺，致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展，關注人機融合、人工智能和機器人對人類社會與文明進化的影響，領航中國新智能時代。

閱讀原文

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

從專家到傻瓜：Claude 3.5兩小時狂飆編程，8小時后卻現驚人短板！

AI自主研發能力的現狀與挑戰

1. AI與人類專家的比較

2. 研究方法與評估框架

3. AI智能體的成功與局限性

4. 未來展望與改進方向

聯系作者

捷豹新Logo驚艷亮相，消費者卻為何冷淡反應？

AI監控：打字慢、鼠標不動就被警告，Karpathy的驚人評論引發熱議！

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點