OpenAI研究人員在一篇新論文中發現,即使是前沿模型,或是最先進、突破界限的人工智慧系統,「仍然無法解決大多數」Coding任務。
研究人員使用了一種新開發的基準 SWE-Lancer,該基準基於自由工作者網站 Upwork 的 1,400 多個軟體工程任務構建。 OpenAI 利用該基準對三種大型語言模型 (LLM)——其自己的 o1 推理模型和旗艦 GPT-4o,以及 Anthropic 的 Claude 3.5 Sonnet——進行了測試。
具體來說,新的基準評估了 LLM 在 Upwork 的兩種類型任務中的表現:單獨任務,包括解決錯誤並對其進行修復;管理任務,即模型試圖縮小範圍並做出更高級別的決策。 (模特兒不允許上網,這意味著她們不能抄襲已經發佈在網路上的類似答案。)
這些模型在 Upwork 上承擔了總計價值數十萬美元的任務,但它們只能修復表面層級的軟體問題,而無法真正在更大的專案中發現錯誤或找到其根本原因。任何使用過人工智慧的人可能都熟悉這些粗製濫造、不成熟的「解決方案」——人工智慧擅長提供聽起來很有信心的信息,但仔細檢查後往往會崩潰。
論文指出,儘管這三位法學碩士通常能夠「比人類快得多」地運行,但他們也未能掌握錯誤的普遍程度或理解其背景,「導致解決方案不正確或不夠全面」。