LLM enthüllt tödlichen Fehler: Sie können einfach keine Uhren lesen! Doktor verblüfft, Genauigkeit unter 50%

Xinzhiyuan Bericht

Redaktion: KingHZ

【Xinzhiyuan Intro】 KI kann Artikel schreiben, Bilder zeichnen, hohe Noten erreichen, aber scheitert kläglich an einfachen Aufgaben wie „Uhrzeit ablesen“ oder „welcher Wochentag ist heute“? Die neueste Forschung enthüllt erstaunlichekognitive Defizite dahinter und erinnert uns daran: KI ist zwar leistungsstark, aber präzises Denken ist immer noch auf den Menschen angewiesen.

Manche Aufgaben sind für Menschen kinderleicht, aber KI macht häufig Fehler.

Zum Beispiel brachte die Frage, wie viele Buchstaben „r“ im Wort „strawberry“ vorkommen, einst viele Top-LLMs in Verlegenheit.

Die neueste Forschung zeigt: Auch das Ablesen von Uhren oder Kalendern ist für KI sehr schwierig.

Abbildung 1: In Testinstanzen konnten 6 große Modelle analoge Uhren nicht korrekt ablesen, und nur 2 konnten Kalender verstehen.

Forscher der Universität Edinburgh und anderer Institutionen haben dieses zum Nachdenken anregende KI-Phänomen aufgedeckt.

Sie simulierten Uhren und Jahreskalender, um die Fähigkeit multimodaler Sprachmodelle (MLLMs) zur Interpretation von Zeit und Datum systematisch zu untersuchen.

Die Ergebnisse waren enttäuschend:

Die Genauigkeit von KI-Systemen beim Ablesen von Uhren betrug nur 38,7%, und die Genauigkeit bei der Bestimmung von Kalenderdaten betrug nur 26,3%.

Auf dem ICLR 2025 Workshop on Reasoning and Planning for LLMs (Workshop über Denken und Planung für LLMs) zeigten sie diese unerwarteten Mängel von LLMs.

Link zum Artikel: https://arxiv.org/abs/2502.05092

Um die Fähigkeit von MLLMs zur Bearbeitung von Zeitaufgaben zu untersuchen, erstellten sie präzise angepasste Testdatensätze, die zwei Untergruppen umfassen: ClockQA und CalendarQA.

ClockQA umfasst sechs Arten von simulierten Uhrenbildern (einschließlich Varianten mit römischen Ziffern, fehlendem Sekundenzeiger und verschiedenen Zifferblattfarben usw.) und entsprechende Zeitfragen;

CalendarQA enthält Jahreskalenderbilder für zehn Jahre, wobei die Fragen von einfach bis komplex reichen:

Welcher Wochentag ist Neujahr?

Welcher Wochentag ist der 15. März?

Welches Datum ist der 153. Tag des Jahres?

Abbildung 2: Überblick über die DateTimeReasoning-Aufgabe und ihre beiden Hauptuntergruppen: ClockQA und CalendarQA

Obwohl der Datensatz relativ klein ist, kann sein Design die Kerndimensionen des zeitlichen Denkens, der visuellen Analyse und der Datums-/Zeit-Inferenz effektiv erfassen.

Erste Ergebnisse zeigen, dass, obwohl einige Modelle Potenzial beim Ablesen von Uhren oder bei Kalenderfragen zeigen, grundlegende Probleme weiterhin bestehen.

Dabei wies Gemini-2.0 beim Uhrenablesen geringere Stunden-/Minutenfehler auf; beim Kalenderfragen hatte das o1-Modell die höchste Genauigkeit.

Detaillierte Ergebnisse

Tabelle 1 fasst die Leistung der einzelnen Modelle bei den beiden Aufgaben zusammen.

Bei der ClockQA-Aufgabe erzielte Gemini-2.0 den höchsten Exact Match (EM)-Score (22,58%) und den geringsten Stunden-/Minutenfehler, was zeigt, dass es im Vergleich zu anderen Modellen Vorteile beim Verständnis von Uhren hat.

Allerdings ist der gesamte EM-Score immer noch niedrig, was darauf hindeutet, dass multimodale große Sprachmodelle (MLLMs) bei der Aufgabe des Ablesens von Uhren immer noch erhebliche Schwierigkeiten haben.

Im Gegensatz dazu zeigte GPT-o1 bei der CalendarQA-Aufgabe eine herausragende Leistung mit einer Genauigkeitsrate von 80%, was seine starke Fähigkeit bei Datumsberechnungen und logischem Denken zeigt. Andere Modelle hinkten deutlich hinterher, was darauf hindeutet, dass Datumsberechnungen und die Analyse strukturierter Layouts weiterhin Herausforderungen für die KI darstellen.

Insgesamt war die Gesamtleistung der verbleibenden Modelle bei beiden ClockQA- und CalendarQA-Aufgaben, abgesehen von der hohen Leistung von GPT-o1 bei CalendarQA, unbefriedigend.

Tabelle 1: Leistung der einzelnen Modelle bei der Uhraufgabe (links) und Kalenderaufgabe (rechts). ↑ zeigt an, dass höhere Werte besser sind; ↓ zeigt an, dass niedrigere Werte besser sind.

Aufgaben zum Ablesen von Uhren sind weiterhin fehleranfällig.

Im ClockQA-Subset war die Leistung der Modelle deutlich schlechter als bei kalenderbezogenen Fragen (siehe Tabelle 1).

Abbildung 4a und Abbildung 3a zeigen, dass selbst bei Standardzifferblättern die Modellleistung immer noch schlecht ist, wobei einige Modelle sogar dazu neigen, eine bestimmte „Standardzeit“ anzugeben.

Die Verwendung römischer Ziffern oder stilisierter Zeiger erhöhte die Fehlerrate weiter.

Und das Entfernen des Sekundenzeigers vereinfachte den Denkprozess des Modells nicht, was auf ein grundlegendes Problem bei der Fähigkeit der Modelle hinweist, Zeiger zu identifizieren und Winkel zu verstehen.

Die Analyse des Kalenderdenkens war etwas besser.

Im Gegensatz dazu schnitten einige Modelle bei Kalenderaufgaben und bestimmten Fragetypen besser ab.

GPT-o1 zeigte insbesondere im CalendarQA-Subset eine hervorragende Leistung mit einer Gesamttrefferquote von bis zu 80% (siehe Tabelle 1 und Abbildung 3b).

Abbildung 3: Fehleranalyse von ClockQA und CalendarQA

Die Punkte in Abbildung 3(a) stellen die Beziehung zwischen der vom Modell vorhergesagten Zeit (vertikale Achse) und der tatsächlichen Zeit (horizontale Achse) dar. Die schwarze gestrichelte Linie (y=x) repräsentiert den Idealfall, bei dem die Vorhersage des Modells vollständig korrekt ist.

Abbildung 3(b) zeigt die Genauigkeitsleistung jedes Modells nach Jahren. Leere Balken zeigen an, dass die Genauigkeit des Modells für das entsprechende Jahr 0% beträgt.

Geschlossene Modelle wie GPT-o1 und Claude-3.5 schnitten bei der Bearbeitung von Fragen zu gängigen Feiertagen besser ab als Open-Source-Modelle.

Dies könnte daran liegen, dass die Trainingsdaten Speicher Muster dieser Feiertage enthalten (siehe Abbildung 4b).

Bei weniger bekannten oder Fragen, die komplexe Berechnungen erfordern (z.B. „der 153. Tag“), sank die Genauigkeit der Modelle jedoch erheblich, was darauf hindeutet, dass die Fähigkeit zum auf Verschiebungen basierenden Denken schwer übertragbar ist.

Die Leistung bei diesen Fragetypen war bei kleinen oder Open-Source-Modellen (wie MiniCPM, Qwen2-VL-7B und Llama3.2-Vision) besonders auffällig, die fast zufällig war.

Abbildung 4: ClockQA- und CalendarQA-Analyse basierend auf Fragetyp und Kategorie

Die Studie enthüllte auch ein weiteres Problem: Wenn KI während des Trainings nur begrenzten Zugang zu Daten hat, insbesondere wenn sie seltenen Phänomenen wie Schaltjahren oder komplexen Kalenderberechnungen gegenübersteht, nimmt ihre Leistung erheblich ab.

Obwohl große Sprachmodelle (LLMs) während des Trainings einer großen Anzahl von Erklärungen zum Konzept „Schaltjahr“ ausgesetzt waren, bedeutet dies nicht, dass sie das für visuell beurteilende Aufgaben erforderliche Denken durchführen können.

Diese Forschung hebt zwei Bereiche hervor, die verbesserungsbedürftig sind:

Erstens die Notwendigkeit, gezieltere Beispiele in die Trainingsdaten aufzunehmen;

Zweitens die Notwendigkeit, zu überdenken, wie KI Aufgaben behandelt, die logisches Denken und räumliche Wahrnehmung kombinieren, insbesondere solche, denen sie normalerweise nicht ausgesetzt ist.

Blindes Vertrauen in KI ist schlimmer als gar keine KI.

Die Genauigkeit von KI-Systemen beim korrekten Ablesen von Uhren betrug nur 38,7%, und die Genauigkeit bei der Bestimmung von Kalenderdaten nur 26,3%.

Frühe Systeme wurden anhand gekennzeichneter Stichproben trainiert, aber das Ablesen einer Uhr erfordert eine andere Fähigkeit – räumliches Denken.

Dies könnte der Grund für die diesmal schlechte Leistung der KI sein, erklärte Rohit Saxena, Forscher an der Universität Edinburgh und Autor des Papiers:

Modelle müssen überlappende Zeiger erkennen, Winkel messen und sich an verschiedene Zifferblattdesigns anpassen, wie z. B. römische Ziffern oder künstlerische Markierungen.

Für KI ist es relativ einfach zu erkennen: „Das ist eine Uhr“, aber die tatsächliche Uhrzeit abzulesen, ist viel schwieriger.

Auch die Datumsbestimmung ist ein Problem.

Bei Fragen zum Datumsdenken ist die Fehlerrate der KI ebenfalls hoch. Zum Beispiel Fragen wie „Welcher Wochentag ist der 153. Tag dieses Jahres?“

Dieser Mangel ist ebenfalls überraschend, da Arithmetik eine der grundlegenden Fähigkeiten eines Computers sein sollte.

Doch wie Saxena erklärte, verarbeitet KI Arithmetik anders als traditionelle Computer:

Arithmetik ist für traditionelle Computer einfach, aber für große Sprachmodelle ist das nicht der Fall. KI führt keine mathematischen Algorithmen aus, sondern sagt Antworten auf der Grundlage von Mustern voraus, die aus Trainingsdaten gelernt wurden.

So kann sie manchmal arithmetische Fragen richtig beantworten, aber der Denkprozess ist weder konsistent noch regelbasiert, und unsere Forschung deckt genau diese Lücke auf.

Diese Forschung ist Teil eines in den letzten Jahren wachsenden Forschungsbereichs, der sich auf den Unterschied zwischen der Art und Weise, wie KI „versteht“, und der Art und Weise, wie Menschen verstehen, konzentriert.

KI-Modelle gelangen zu Antworten, indem sie bekannte Muster identifizieren; sie leisten hervorragende Arbeit, wenn genügend Beispiele in den Trainingsdaten vorhanden sind, aber sie versagen, wenn Verallgemeinerung oder abstraktes Denken erforderlich ist.

Am wichtigsten ist, dass die Forschung uns erneut daran erinnert, dass übermäßiges Vertrauen in die Ausgabe von KI Risiken bergen kann.

Saxena erklärte: „KI ist in der Tat leistungsstark, aber wenn Aufgaben sowohl Wahrnehmung als auch präzises Denken erfordern, brauchen wir immer noch strenge Tests, Backup-Logik und in vielen Fällen menschliches Eingreifen.“

Ein weiterer Autor, Aryo Pradipta Gema, Doktorand an der Universität Edinburgh, sagte:

Die heutige KI-Forschung betont oft komplexe Denkaufgaben, aber ironischerweise kämpfen viele Systeme immer noch mit einfacheren alltäglichen Aufgaben.

Unsere Forschungsergebnisse zeigen, dass es jetzt an der Zeit ist, diese grundlegenden Fähigkeitsdefizite anzugehen. Andernfalls könnte KI in zeitsensitiven realen Anwendungen immer Schwierigkeiten haben, wirklich eingesetzt zu werden.

Referenzen:

https://www.livescience.com/technology/artificial-intelligence/ai-models-cant-tell-time-or-read-a-calendar-study-reveals

https://arxiv.org/abs/2502.05092

https://www.ed.ac.uk/news/most-ai-struggles-to-read-clocks-and-calendars

Hauptkategorie:Künstliche Intelligenz

Unterkategorien:Große SprachmodelleForschungZeitliches DenkenKI-Grenzen


Vorheriger:ZeroSearch: <Alibaba-Technologie> Große Sprachmodelle Lernen durch Selbstbelohnung Ohne Browser

Nächster:Open-Source-Implementierung von Googles selbstentdeckendem Algorithmus AlphaEvolve: OpenAplha_Evolve

Kurz-URL teilen