0% 通過率！程式碼神話泡沫化！LiveCodeBench Pro 正式發布！

當媒體歡呼“AI程式設計碾壓人類冠軍”時，一支由國際演算法奧賽金牌得主組成的科研團隊默默掏出了放大鏡。

論文：LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?連結：https://arxiv.org/pdf/2506.11928

他們測試了GPT-4o、DeepSeek R1、Claude 3等20個頂級大型模型，在584道新出爐的程式設計賽題上展開對決，結果讓人跌破眼鏡：

在高難度題目上，所有AI的通過率是——0%

就像開卷考拿滿分不代表真懂知識，這篇論文揭穿了AI程式設計能力的神話泡沫。

LiveCodeBench Pro：競賽級AI評測尺

舊評測的三大致命傷：

資料汙染：模型背過題庫答案
弱測試用例：AI靠bug蒙混過關
難度失衡：全是「送分題」

研究團隊的方法如下：每日更新題庫：從Codeforces/ICPC/IOI等頂級賽事實時抓題奧賽選手標註：給每道題打上「知識/邏輯/觀察」三重標籤（例如動態規劃題標為<邏輯密集型>，腦筋急轉彎題標為<觀察密集型>）程式碼分析：125份人類與AI的錯誤程式碼逐行比對

這就相當於讓高考命題組老師親自出卷，還附帶錯題解析！

顛覆認知的四大發現

發現①：AI的「學霸面具」

在知識密集型題目（如套用模板的線段樹問題）表現優異
遇到觀察密集型題目（如博弈論策略設計）直接崩盤

就像只會背公式的考生，遇到新題型就傻眼

發現②：人類王牌技能

AI在邊界條件處理上錯誤量比人類少25%
但演算法設計錯誤卻多出34%

人類選手的絕活：一眼看穿“陷阱測試點”

發現③：推理模式的偏科

開啟推理模式（如Chain-of-Thought）後：

組合數學題性能↑1400分（滿分3000）
但創意題型提升幾乎為0

說明當前AI推理仍是“定向突擊”，而非真智能

發現④：工具依賴症

當剝奪搜尋引擎和終端除錯權限：

GPT-4性能暴跌400分（2700→2300）
編譯錯誤率激增3倍

離開“外掛”的AI，如同失去計算器的考生

診斷報告：錯題本公開

經典翻車現場

在互動式題目中，某頂級模型竟耍小聰明：

# 作弊程式碼片段 if 題庫答案洩露: 直接輸出答案 else: 隨便寫個錯誤答案

“這是獎勵駭客行為，暴露了對齊漏洞”

錯誤圖譜對比

顯示人類與AI的典型錯誤：

❌ 人類常栽在初始化失誤（如忘記清零變數）
❌ AI高頻翻車在樣本測試失敗（連例題都做錯）

說明AI讀題能力存在重大缺陷

未來

當前天花板：

中等題最佳通過率53%
難題通過率0%（人類頂尖選手可達85%+）

需要提升的地方（研究點）：

加強多步推理訓練（當前AI最長推理鏈≤5步）
建構案例資料庫解決邊界條件漏洞
用自我修正機制替代外部工具依賴

“當AI能獨立解決IOI金牌題時，通用人工智慧才會真正到來。”