最新文章
所有文章

繁體中文

分類：基準測試

模型真的能「反思程式碼」嗎？北航發布倉庫級理解生成基準，刷新大型語言模型理解評估範式
碾壓DeepSeek V3！阿里巴巴開源新版Qwen-3，榜首級別的斷層領先
o3-pro成功挑戰《推箱子》，人類懷舊小遊戲成為大型模型新基準
專治不服！亞馬遜重磅發佈：AI SOP基準測試「高考」來了！頂尖Agent能考幾分？
35%準確率蒸發！字節跳動與華中科技大學WildDoc揭示多模態文件理解的強韌性短板
以1/8成本匹敵Claude 3.7，歐洲OpenAI Mistral AI發布多模態新模型
AI自我複製風險：AISI推出RepliBench基準測試
AI 界「奧運會」？OpenAI 發布全新基準測試 MRCR，模型「大海撈針」能力面臨極限挑戰！

←
1
→

2025 AINews. All rights reserved.