AINews
  • 最新の記事
  • すべての記事
  • 日本語

    カテゴリー: ベンチマーク

    • モデルは本当に「コードの自己修正」ができるのか?北航がリポジトリレベルの理解生成ベンチマークを発表し、LLM理解評価パラダイムを刷新
    • 合格率0%!コード神話の崩壊!LiveCodeBench Proがリリース!
    • マルチモーダル大規模モデルが軒並み失敗、GPT-4oの安全合格率はわずか50%:SIUOがクロスモーダルな安全盲点を明らかに
    • コスト1/8でClaude 3.7に匹敵、「欧州のOpenAI」Mistral AIがマルチモーダル新モデルを発表
    • AI自己複製リスク:AISIがRepliBenchベンチマークを発表
    • AI界の「オリンピック」?OpenAIが新しいベンチマークMRCRを発表、モデルの「干し草の山の中の針」能力が限界に挑む!
    • DeepSeekが大幅進化!新モデルは数学の定理証明に特化し、複数の高難易度ベンチマークを大幅に更新。
    • ←
    • 1
    • →
    2025 AINews. All rights reserved.