LLMにまた致命的な欠陥が発覚：時計が全く読めない！博士も驚愕、正解率50%以下

新智元報道

編集：KingHZ

【新智元導読】AIは論文執筆、画像生成、高スコア獲得はできるのに、「時計を見て時間を読む」「今日は何曜日」といったことすら間違えるのか？最新の研究は、その背後にある驚くべき認知的な欠陥を明らかにし、AIは強力ではあるが、正確な推論にはまだ人間が不可欠であることを示唆しています。

人間にとっては簡単なタスクでも、AIは頻繁にミスを犯します。

例えば、「strawberry」という単語に「r」がいくつ含まれているか、かつて多くのトップLLMを悩ませました。

最新の研究は、時計やカレンダーを見ることもAIにとっては非常に難しいことを明らかにしました。

図1：テストインスタンスにおいて、6つの大規模モデルはいずれも指針式時計を正しく読み取ることができず、理解できたのはわずか2つでした。カレンダー

英国エディンバラ大学などの研究者たちが、この深く考えさせられるAIの現象を明らかにしました。

彼らは時計と年間のカレンダーをシミュレートし、マルチモーダル言語モデル（MLLM）の時間と日付の解釈能力を体系的に調査しました。

結果は失望すべきものでした：

AIシステムが時計を読み取る精度はわずか38.7%で、カレンダーの日付を判断する精度はわずか26.3%でした。

ICLR 2025のLLM推論と計画に関するワークショップ（ICLR 2025 Workshop on Reasoning and Planning for LLMs）で、彼らはこれらのLLMの予想外の欠陥を発表しました。

論文リンク：https://arxiv.org/abs/2502.05092

MLLMsが時間タスクを処理する能力を探るため、彼らはClockQAとCalendarQAの2つのサブセットを含む、精密にカスタマイズされたテストセットを構築しました。

ClockQAには、6種類の模擬時計画像（ローマ数字、秒針の欠落、異なる文字盤の色などのバリエーションを含む）とその対応する時間に関する質問が含まれます。

CalendarQAには、10年間の年間のカレンダー画像が含まれ、質問は簡単なものから複雑なものまで設定されています。

元日は何曜日ですか？

3月15日は何曜日ですか？

その年の153日目はいつですか？

図2：DateTimeReasoningタスクの概要とその2つの主要なサブセット：ClockQAとCalendarQA

データセットの規模は小さいですが、その設計は時間推論、視覚解析、日付/時間推論の核心的な側面を効果的に検出できます。

予備的な調査結果は、一部のモデルが時計の読み取りやカレンダーの質問応答において可能性を示しているにもかかわらず、根本的な問題は依然として存在することを示しています。

その中で、時計の読み取りではGemini-2.0の時分針の誤差が小さく、カレンダーの質問応答ではo1モデルの精度が最も高かった。

詳細な結果

表1は、各モデルの2つのタスクにおけるパフォーマンスをまとめたものです。

ClockQAタスクでは、Gemini-2.0が最高の正解一致率（Exact Match、EM）スコア（22.58%）と最小の時/分誤差を達成し、他のモデルと比較して時計理解において優位性を示しました。

しかし、全体的なEMスコアは依然として低く、マルチモーダル大規模言語モデル（MLLMs）が時計読み取りタスクにおいて依然として明らかな困難を抱えていることを示しています。

対照的に、GPT-o1はCalendarQAタスクで顕著なパフォーマンスを示し、精度は80%に達しました。これは、日付計算と論理推論におけるその強力な能力を示しています。他のモデルは著しく遅れをとっており、日付計算と構造化されたレイアウト解析が依然としてAIが直面する難点であることを示唆しています。

全体として、CalendarQAにおけるGPT-o1の高いパフォーマンスを除き、残りのモデルはClockQAとCalendarQAの両タスクにおいて全体的にパフォーマンスが不十分でした。

表1：各モデルの時計タスク（左）とカレンダータスク（右）におけるパフォーマンス。↑は数値が高いほど良い、↓は数値が低いほど良いを示します。

時計読み取りタスクは依然として間違いやすい。

ClockQAサブセットでは、モデルのパフォーマンスはカレンダー関連の問題よりも明らかに劣っていました（表1参照）。

図4aと図3aは、標準的な文字盤であってもモデルのパフォーマンスが依然として低く、一部のモデルは特定の「デフォルト」時間を提示する傾向があることさえ示しています。

ローマ数字や様式化された針を使用すると、エラー率がさらに増加します。

秒針を取り除いても、モデルの推論プロセスは単純化されず、モデルが針を認識し、角度を理解することに根本的な問題があることを示しています。

カレンダー推論分析はやや良好。

対照的に、一部のモデルはカレンダー関連タスクや特定の種類の問題でより良いパフォーマンスを示しました。

GPT-o1はCalendarQAサブセットで特に優れており、全体的な精度は80%に達しました（表1および図3b参照）。

図3：ClockQAおよびCalendarQAのエラー分析

図3（a）中の点は、モデルが予測した時間（縦軸）と実際の時間（横軸）の関係を示しています。黒い破線（y=x）は、モデルの予測が完全に正しい理想的な状況を表します。

図3（b）は、各モデルの年ごとの精度パフォーマンスを示しています。空白の棒は、対応する年のモデルの精度が0%であることを示します。

GPT-o1やClaude-3.5のようなクローズドソースモデルは、一般的な祝日に関する問題を処理する点でオープンソースモデルよりも優れていました。

これは、トレーニングデータにこれらの祝日の記憶パターンが含まれている可能性があるためです（図4b参照）。

しかし、あまり知られていない、または複雑な計算を必要とする問題（例：「153日目」）の場合、モデルの精度は大幅に低下しました。これは、オフセットに基づく推論能力が移行しにくいことを示しています。

このような問題におけるパフォーマンスは、小型またはオープンソースモデル（MiniCPM、Qwen2-VL-7B、Llama3.2-Visionなど）では特に顕著で、ほぼランダムでした。

図4：質問タイプとカテゴリに基づくClockQAおよびCalendarQA分析

研究はさらに別の問題も明らかにしました：AIがトレーニング中に触れるデータが限られている場合、特にうるう年や複雑なカレンダー計算のような珍しい現象に直面した場合、そのパフォーマンスは著しく低下します。

大規模言語モデル（LLM）はトレーニング中に「うるう年」の概念に関する多くの説明に触れてきましたが、それが視覚的な判断を伴う関連タスクに必要な推論を完了できるという意味ではありません。

この研究は2つの改善の必要性を強調しています：

1つ目は、トレーニングデータにより的を絞った例を追加する必要があることです。

2つ目は、論理推論と空間認識を組み合わせたタスク、特に普段触れることの少ないタスクをAIがどのように処理するかを再考する必要があることです。

AIを鵜呑みにするな、AIなしの方がマシ

AIシステムが時計を正しく読み取る精度はわずか38.7%、カレンダーの日付を判断する精度はわずか26.3%でした。

初期のシステムはラベル付けされたサンプルを通じてトレーニングされましたが、時計を読み取るには別の能力、すなわち空間推論が必要です。

これが今回AIのパフォーマンスが悪かった理由かもしれません、と論文著者でありエディンバラ大学の研究者であるRohit Saxenaは説明します：

モデルは針の重なりを認識し、角度を測定し、ローマ数字や芸術的な目盛りなど、さまざまな文字盤のデザインに適応する必要があります。

AIが「これは時計だ」と認識するのは比較的簡単ですが、実際に時間を読み取るのはずっと難しいのです。

日付の判断も頭痛の種です。

日付推論の質問をされたとき、AIのエラー率も高いです。例えば、「今年の153日目は何曜日ですか？」といった質問です。

この欠陥も驚くべきことです。なぜなら算術はコンピューターの基本的な能力の一つであるはずだからです。

しかし、Saxenaが説明するように、AIは算術を従来のコンピューターとは異なる方法で処理します：

算術は従来のコンピューターにとっては簡単ですが、大規模言語モデルにとってはそうではありません。AIは数学的なアルゴリズムを実行するのではなく、トレーニングデータから学んだパターンに基づいて回答を予測します。

したがって、時々算術問題を正しく答えることもありますが、推論プロセスは一貫性もなく、ルールに基づいていません。私たちの研究はまさにこのギャップを明らかにしています。

この研究は、近年の研究分野の一部であり、AIの「理解」の仕方と人間の理解の仕方の違いに焦点を当てています。

AIモデルは、見慣れたパターンを認識することによって回答に到達します。トレーニングデータに十分な例がある場合は優れたパフォーマンスを発揮しますが、汎化または抽象的な推論が必要な場合は失敗します。

最も重要なことは、研究が再び、AIの出力に過度に依存することにはリスクが伴うことを思い出させていることです。

Saxenaは、「AIは確かに強力ですが、タスクが知覚と正確な推論の両方を含む場合、我々は依然として厳格なテスト、バックアップロジックの設定、そして多くの場合、人間の介入が必要です」と述べています。

もう一人の著者、エディンバラ大学の博士課程学生であるAryo Pradipta Gemaは、次のように述べています。

今日のAI研究はしばしば複雑な推論タスクを強調しますが、皮肉なことに、多くのシステムはより単純な日常的なタスクに対処するのに苦労しています。

私たちの研究結果は、これらの基本的な能力の欠陥に対処すべき時が来ていることを示しています。そうでなければ、AIは時間に敏感な現実世界のアプリケーションで真に導入されるのに常に苦労する可能性があります。

参考文献：

https://www.livescience.com/technology/artificial-intelligence/ai-models-cant-tell-time-or-read-a-calendar-study-reveals

https://arxiv.org/abs/2502.05092

https://www.ed.ac.uk/news/most-ai-struggles-to-read-clocks-and-calendars

LLMにまた致命的な欠陥が発覚：時計が全く読めない！博士も驚愕、正解率50%以下

短いURLをシェア