カテゴリー: ベンチマーク
- モデルは本当に「コードの自己修正」ができるのか?北航がリポジトリレベルの理解生成ベンチマークを発表し、LLM理解評価パラダイムを刷新
- 合格率0%!コード神話の崩壊!LiveCodeBench Proがリリース!
- マルチモーダル大規模モデルが軒並み失敗、GPT-4oの安全合格率はわずか50%:SIUOがクロスモーダルな安全盲点を明らかに
- コスト1/8でClaude 3.7に匹敵、「欧州のOpenAI」Mistral AIがマルチモーダル新モデルを発表
- AI自己複製リスク:AISIがRepliBenchベンチマークを発表
- AI界の「オリンピック」?OpenAIが新しいベンチマークMRCRを発表、モデルの「干し草の山の中の針」能力が限界に挑む!
- DeepSeekが大幅進化!新モデルは数学の定理証明に特化し、複数の高難易度ベンチマークを大幅に更新。