最新の記事
すべての記事

日本語

カテゴリー：ベンチマーク

モデルは本当に「コードの自己修正」ができるのか？北航がリポジトリレベルの理解生成ベンチマークを発表し、LLM理解評価パラダイムを刷新
合格率0%！コード神話の崩壊！LiveCodeBench Proがリリース！
マルチモーダル大規模モデルが軒並み失敗、GPT-4oの安全合格率はわずか50%：SIUOがクロスモーダルな安全盲点を明らかに
コスト1/8でClaude 3.7に匹敵、「欧州のOpenAI」Mistral AIがマルチモーダル新モデルを発表
AI自己複製リスク：AISIがRepliBenchベンチマークを発表
AI界の「オリンピック」？OpenAIが新しいベンチマークMRCRを発表、モデルの「干し草の山の中の針」能力が限界に挑む！
DeepSeekが大幅進化！新モデルは数学の定理証明に特化し、複数の高難易度ベンチマークを大幅に更新。

←
1
→

2025 AINews. All rights reserved.