分類: 基準測試
- 模型真的能「反思程式碼」嗎?北航發布倉庫級理解生成基準,刷新大型語言模型理解評估範式
- 碾壓DeepSeek V3!阿里巴巴開源新版Qwen-3,榜首級別的斷層領先
- o3-pro成功挑戰《推箱子》,人類懷舊小遊戲成為大型模型新基準
- 專治不服!亞馬遜重磅發佈:AI SOP基準測試「高考」來了!頂尖Agent能考幾分?
- 35%準確率蒸發!字節跳動與華中科技大學WildDoc揭示多模態文件理解的強韌性短板
- 以1/8成本匹敵Claude 3.7,歐洲OpenAI Mistral AI發布多模態新模型
- AI自我複製風險:AISI推出RepliBench基準測試
- AI 界「奧運會」?OpenAI 發布全新基準測試 MRCR,模型「大海撈針」能力面臨極限挑戰!