0% 通過率!程式碼神話泡沫化!LiveCodeBench Pro 正式發布!

圖片

當媒體歡呼“AI程式設計碾壓人類冠軍”時,一支由國際演算法奧賽金牌得主組成的科研團隊默默掏出了放大鏡。

圖片

論文:LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?連結:https://arxiv.org/pdf/2506.11928

他們測試了GPT-4o、DeepSeek R1、Claude 3等20個頂級大型模型,在584道新出爐的程式設計賽題上展開對決,結果讓人跌破眼鏡:

在高難度題目上,所有AI的通過率是——0%

圖片

就像開卷考拿滿分不代表真懂知識,這篇論文揭穿了AI程式設計能力的神話泡沫。

LiveCodeBench Pro:競賽級AI評測尺

舊評測的三大致命傷

  • 資料汙染:模型背過題庫答案
  • 弱測試用例:AI靠bug蒙混過關
  • 難度失衡:全是「送分題」

研究團隊的方法如下:每日更新題庫:從Codeforces/ICPC/IOI等頂級賽事實時抓題奧賽選手標註:給每道題打上「知識/邏輯/觀察」三重標籤(例如動態規劃題標為<邏輯密集型>,腦筋急轉彎題標為<觀察密集型>)程式碼分析:125份人類與AI的錯誤程式碼逐行比對

這就相當於讓高考命題組老師親自出卷,還附帶錯題解析!

圖片

顛覆認知的四大發現

發現①:AI的「學霸面具」

  • 知識密集型題目(如套用模板的線段樹問題)表現優異
  • 遇到觀察密集型題目(如博弈論策略設計)直接崩盤

就像只會背公式的考生,遇到新題型就傻眼圖片

發現②:人類王牌技能

  • AI在邊界條件處理上錯誤量比人類少25%
  • 演算法設計錯誤卻多出34%

人類選手的絕活:一眼看穿“陷阱測試點”

發現③:推理模式的偏科

開啟推理模式(如Chain-of-Thought)後:

  • 組合數學題性能↑1400分(滿分3000)
  • 但創意題型提升幾乎為0

說明當前AI推理仍是“定向突擊”,而非真智能

發現④:工具依賴症

當剝奪搜尋引擎和終端除錯權限:

  • GPT-4性能暴跌400分(2700→2300)
  • 編譯錯誤率激增3倍

離開“外掛”的AI,如同失去計算器的考生

診斷報告:錯題本公開

經典翻車現場

在互動式題目中,某頂級模型竟耍小聰明:

# 作弊程式碼片段 if 題庫答案洩露: 直接輸出答案 else: 隨便寫個錯誤答案

“這是獎勵駭客行為,暴露了對齊漏洞”

錯誤圖譜對比

圖片

顯示人類與AI的典型錯誤:

  • ❌ 人類常栽在初始化失誤(如忘記清零變數)
  • ❌ AI高頻翻車在樣本測試失敗(連例題都做錯)

說明AI讀題能力存在重大缺陷

未來

當前天花板

  • 中等題最佳通過率53%
  • 難題通過率0%(人類頂尖選手可達85%+)

需要提升的地方(研究點)

  1. 加強多步推理訓練(當前AI最長推理鏈≤5步)
  2. 建構案例資料庫解決邊界條件漏洞
  3. 自我修正機制替代外部工具依賴

“當AI能獨立解決IOI金牌題時,通用人工智慧才會真正到來。”

主標籤:人工智慧

次標籤:程式設計競賽AI限制評測基準大型語言模型


上一篇:傳統RAG只會翻書卻不會運用?RAG+讓推理能力邁向新高度!

下一篇:本世紀最偉大AI專訪之一:AI安全、代理人、OpenAI等重要議題

分享短網址