AINews
最新の記事
すべての記事
日本語
Light
Dark
System
カテゴリー: AIベンチマーク
Googleが挑戦状、DeepSeek、Kimiも参戦:初のAI大規模モデル対抗戦が明日開幕
o3-proが「倉庫番」をクリア、懐かしのレトロゲームが大規模モデルの新たなベンチマークに
AmazonがSOPベンチマークを発表:AIエージェントの究極のテスト。トップエージェントの成績は?
AIが賢くなるほど言うことを聞かなくなる!新研究:最強の推論モデルの指示遵守率はわずか50%
プロの医師はAIモデルにはるかに劣る?OpenAIが医療オープンソースベンチマークHealthBenchを発表、o3が最高のパフォーマンスを示す
←
1
→