AINews
  • 最新の記事
  • すべての記事
  • 日本語

    カテゴリー: AIベンチマーク

    • Googleが挑戦状、DeepSeek、Kimiも参戦:初のAI大規模モデル対抗戦が明日開幕
    • o3-proが「倉庫番」をクリア、懐かしのレトロゲームが大規模モデルの新たなベンチマークに
    • AmazonがSOPベンチマークを発表:AIエージェントの究極のテスト。トップエージェントの成績は?
    • AIが賢くなるほど言うことを聞かなくなる!新研究:最強の推論モデルの指示遵守率はわずか50%
    • プロの医師はAIモデルにはるかに劣る?OpenAIが医療オープンソースベンチマークHealthBenchを発表、o3が最高のパフォーマンスを示す
    • ←
    • 1
    • →
    2025 AINews. All rights reserved.