當媒體歡呼“AI程式設計碾壓人類冠軍”時,一支由國際演算法奧賽金牌得主組成的科研團隊默默掏出了放大鏡。
論文:LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?連結:https://arxiv.org/pdf/2506.11928
他們測試了GPT-4o、DeepSeek R1、Claude 3等20個頂級大型模型,在584道新出爐的程式設計賽題上展開對決,結果讓人跌破眼鏡:
在高難度題目上,所有AI的通過率是——0%
就像開卷考拿滿分不代表真懂知識,這篇論文揭穿了AI程式設計能力的神話泡沫。
LiveCodeBench Pro:競賽級AI評測尺
舊評測的三大致命傷:
- 資料汙染:模型背過題庫答案
- 弱測試用例:AI靠bug蒙混過關
- 難度失衡:全是「送分題」
研究團隊的方法如下:每日更新題庫:從Codeforces/ICPC/IOI等頂級賽事實時抓題奧賽選手標註:給每道題打上「知識/邏輯/觀察」三重標籤(例如動態規劃題標為<邏輯密集型>,腦筋急轉彎題標為<觀察密集型>)程式碼分析:125份人類與AI的錯誤程式碼逐行比對
這就相當於讓高考命題組老師親自出卷,還附帶錯題解析!
顛覆認知的四大發現
發現①:AI的「學霸面具」
- 在知識密集型題目(如套用模板的線段樹問題)表現優異
- 遇到觀察密集型題目(如博弈論策略設計)直接崩盤
就像只會背公式的考生,遇到新題型就傻眼
發現②:人類王牌技能
- AI在邊界條件處理上錯誤量比人類少25%
- 但演算法設計錯誤卻多出34%
人類選手的絕活:一眼看穿“陷阱測試點”
發現③:推理模式的偏科
開啟推理模式(如Chain-of-Thought)後:
- 組合數學題性能↑1400分(滿分3000)
- 但創意題型提升幾乎為0
說明當前AI推理仍是“定向突擊”,而非真智能
發現④:工具依賴症
當剝奪搜尋引擎和終端除錯權限:
- GPT-4性能暴跌400分(2700→2300)
- 編譯錯誤率激增3倍
離開“外掛”的AI,如同失去計算器的考生
診斷報告:錯題本公開
經典翻車現場
在互動式題目中,某頂級模型竟耍小聰明:
# 作弊程式碼片段 if 題庫答案洩露: 直接輸出答案 else: 隨便寫個錯誤答案
“這是獎勵駭客行為,暴露了對齊漏洞”
錯誤圖譜對比
顯示人類與AI的典型錯誤:
- ❌ 人類常栽在初始化失誤(如忘記清零變數)
- ❌ AI高頻翻車在樣本測試失敗(連例題都做錯)
說明AI讀題能力存在重大缺陷
未來
當前天花板:
- 中等題最佳通過率53%
- 難題通過率0%(人類頂尖選手可達85%+)
需要提升的地方(研究點):
- 加強多步推理訓練(當前AI最長推理鏈≤5步)
- 建構案例資料庫解決邊界條件漏洞
- 用自我修正機制替代外部工具依賴
“當AI能獨立解決IOI金牌題時,通用人工智慧才會真正到來。”