最新の記事
すべての記事

日本語

カテゴリー： AIベンチマーク

Googleが挑戦状、DeepSeek、Kimiも参戦：初のAI大規模モデル対抗戦が明日開幕
o3-proが「倉庫番」をクリア、懐かしのレトロゲームが大規模モデルの新たなベンチマークに
AmazonがSOPベンチマークを発表：AIエージェントの究極のテスト。トップエージェントの成績は？
AIが賢くなるほど言うことを聞かなくなる！新研究：最強の推論モデルの指示遵守率はわずか50%
プロの医師はAIモデルにはるかに劣る？OpenAIが医療オープンソースベンチマークHealthBenchを発表、o3が最高のパフォーマンスを示す

←
1
→

2025 AINews. All rights reserved.