LLM revela un defecto fatal: ¡simplemente no pueden leer relojes! Doctor se asombra, precisión por debajo del 50%

Informe de Xinzhiyuan

Editado por: KingHZ

【導読 de Xinzhiyuan】 ¿La IA puede escribir artículos, dibujar, obtener altas puntuaciones, pero se equivoca terriblemente incluso al "leer la hora en un reloj" o "qué día de la semana es hoy"? La última investigación revela las sorprendentesdeficiencias cognitivasdetrás de esto, recordándonos que la IA es muy potente, pero el razonamiento preciso todavía no puede prescindir de los humanos.

Algunas tareas son fáciles para los humanos, pero la IA comete errores con frecuencia.

Por ejemplo, contar cuántas letras "r" hay en la palabra "strawberry" una vez puso en apuros a muchos LLM de primer nivel.

La investigación más reciente revela que leer relojes o calendarios también es muy difícil para la IA.

Figura 1: En las instancias de prueba, 6 modelos grandes no pudieron leer correctamente los relojes analógicos, y solo 2 pudieron entender los calendarios.

Investigadores de la Universidad de Edimburgo y otras instituciones han revelado este fenómeno de IA que invita a la reflexión.

Simularon relojes y calendarios anuales para examinar sistemáticamente la capacidad de los modelos de lenguaje multimodal (MLLM) para interpretar el tiempo y las fechas.

Los resultados fueron decepcionantes:

La precisión de los sistemas de IA al leer relojes fue solo del 38.7%, y la precisión al determinar fechas de calendario fue solo del 26.3%.

En el Workshop ICLR 2025 sobre Razonamiento y Planificación para LLMs (ICLR 2025 Workshop on Reasoning and Planning for LLMs), mostraron estos defectos inesperados de los LLM.

Enlace del artículo: https://arxiv.org/abs/2502.05092

Para explorar la capacidad de los MLLMs para manejar tareas temporales, construyeron conjuntos de pruebas precisamente personalizados, que incluyen dos subconjuntos: ClockQA y CalendarQA.

ClockQA cubre seis tipos de imágenes de relojes simulados (incluyendo variantes con números romanos, manecillas de segundos faltantes y diferentes colores de esfera, etc.) y sus correspondientes preguntas de tiempo;

CalendarQA incluye imágenes de calendarios anuales de diez años, con preguntas que van de simples a complejas:

¿Qué día de la semana es Año Nuevo?

¿Qué día de la semana es el 15 de marzo?

¿Qué día es el 153º día del año?

Figura 2: Descripción general de la tarea DateTimeReasoning y sus dos subconjuntos principales: ClockQA y CalendarQA

Aunque el tamaño del conjunto de datos es relativamente pequeño, su diseño puede detectar eficazmente las dimensiones centrales del razonamiento temporal, el análisis visual y la inferencia de fecha/hora.

Los hallazgos preliminares indican que, aunque algunos modelos muestran potencial en la lectura de relojes o en las preguntas de calendario, los problemas fundamentales aún existen.

Entre ellos, en la lectura de relojes, Gemini-2.0 tuvo errores de hora/minuto más bajos; en las preguntas de calendario, el modelo o1 tuvo la mayor precisión.

Resultados detallados

La Tabla 1 resume el rendimiento de cada modelo en las dos tareas.

En la tarea ClockQA, Gemini-2.0 obtuvo la puntuación más alta de coincidencia exacta (EM) (22.58%) y el error de hora/minuto más pequeño, mostrando una ventaja en la comprensión de relojes en comparación con otros modelos.

Sin embargo, la puntuación general de EM sigue siendo baja, lo que indica que los modelos de lenguaje multimodal (MLLM) todavía tienen dificultades significativas en la tarea de lectura de relojes.

En contraste, GPT-o1 se destacó en la tarea CalendarQA, con una tasa de precisión del 80%, demostrando su fuerte capacidad en el cálculo de fechas y el razonamiento lógico. Otros modelos se quedaron significativamente atrás, lo que indica que el cálculo de fechas y el análisis de diseños estructurados siguen siendo desafíos para la IA.

En general, a excepción del alto rendimiento de GPT-o1 en CalendarQA, el rendimiento general de los modelos restantes en ambas tareas de ClockQA y CalendarQA fue insatisfactorio.

Tabla 1: Rendimiento de cada modelo en la tarea de reloj (izquierda) y tarea de calendario (derecha). ↑ indica que un valor más alto es mejor; ↓ indica que un valor más bajo es mejor.

Las tareas de lectura de relojes siguen siendo propensas a errores.

En el subconjunto ClockQA, el rendimiento de los modelos fue significativamente peor que en las preguntas relacionadas con el calendario (ver Tabla 1).

Las figuras 4a y 3a muestran que incluso con diales estándar, el rendimiento del modelo sigue siendo bajo, con algunos modelos que incluso tienden a dar una hora "predeterminada".

El uso de números romanos o manecillas estilizadas aumentó aún más la tasa de error.

Y quitar la manecilla de segundos no simplificó el proceso de razonamiento del modelo, lo que indica un problema fundamental en la capacidad de los modelos para identificar manecillas y comprender ángulos.

El análisis de razonamiento de calendario fue ligeramente mejor.

En contraste, algunos modelos tuvieron un mejor rendimiento en tareas de calendario y ciertos tipos de preguntas.

GPT-o1 se desempeñó particularmente bien en el subconjunto CalendarQA, con una tasa de precisión general de hasta el 80% (ver Tabla 1 y Figura 3b).

Figura 3: Análisis de errores de ClockQA y CalendarQA

Los puntos en la Figura 3(a) representan la relación entre el tiempo predicho por el modelo (eje vertical) y el tiempo real (eje horizontal). La línea discontinua negra (y=x) representa la situación ideal donde la predicción del modelo es completamente correcta.

La Figura 3(b) muestra el rendimiento de precisión de cada modelo por año. Las barras en blanco indican que la precisión del modelo para el año correspondiente es del 0%.

Los modelos de código cerrado como GPT-o1 y Claude-3.5, al abordar preguntas sobre días festivos comunes, superaron a los modelos de código abierto.

Esto puede deberse a que los datos de entrenamiento incluyen patrones de memoria de estos días festivos (ver Figura 4b).

Sin embargo, para algunas preguntas menos conocidas o que requieren cálculos complejos (por ejemplo, "el día 153"), la precisión de los modelos disminuyó significativamente, lo que indica que la capacidad de razonamiento basada en desplazamientos es difícil de transferir.

El rendimiento en este tipo de preguntas fue particularmente notable para los modelos pequeños o de código abierto (como MiniCPM, Qwen2-VL-7B y Llama3.2-Vision), que fue casi aleatorio.

Figura 4: Análisis de ClockQA y CalendarQA basado en el tipo y categoría de pregunta

La investigación también reveló otro problema: cuando la IA tiene una exposición limitada a los datos durante el entrenamiento, especialmente cuando se enfrenta a fenómenos raros como los años bisiestos o cálculos de calendario complejos, su rendimiento disminuye significativamente.

Aunque los modelos de lenguaje grandes (LLM) han estado expuestos a una gran cantidad de explicaciones sobre el concepto de "año bisiesto" durante el entrenamiento, esto no significa que puedan realizar el razonamiento necesario para tareas relacionadas que involucran juicio visual.

Esta investigación destaca dos áreas que necesitan mejoras:

Una es la necesidad de incluir ejemplos más específicos en los datos de entrenamiento;

La segunda es la necesidad de reconsiderar cómo la IA maneja tareas que combinan razonamiento lógico y percepción espacial, especialmente aquellas a las que no está acostumbrada.

Creer ciegamente en la IA es peor que no tener IA.

La precisión de los sistemas de IA para leer correctamente los relojes fue solo del 38.7%, y la precisión para determinar las fechas de calendario fue solo del 26.3%.

Los sistemas tempranos se entrenaron mediante muestras etiquetadas, pero leer un reloj requiere otra habilidad: el razonamiento espacial.

Esta podría ser la razón del bajo rendimiento de la IA esta vez, explicó Rohit Saxena, investigador de la Universidad de Edimburgo y autor del artículo:

Los modelos deben reconocer las manecillas superpuestas, medir ángulos y adaptarse a varios diseños de dial, como números romanos o marcas artísticas.

Para la IA es relativamente fácil reconocer "esto es un reloj", pero es mucho más difícil leer la hora real.

La determinación de la fecha también es un dolor de cabeza.

Cuando se le hacen preguntas de razonamiento de fechas, la tasa de error de la IA también es alta. Por ejemplo, preguntas como "¿Qué día de la semana es el día 153 de este año?"

Este defecto también es sorprendente, ya que la aritmética debería ser una de las capacidades básicas de una computadora.

Pero como explicó Saxena, la IA procesa la aritmética de manera diferente a las computadoras tradicionales:

La aritmética es simple para las computadoras tradicionales, pero no es el caso para los modelos de lenguaje grandes. La IA no ejecuta algoritmos matemáticos, sino que predice respuestas basándose en patrones aprendidos de los datos de entrenamiento.

Así que a veces puede responder correctamente preguntas aritméticas, pero el proceso de razonamiento no es ni consistente ni basado en reglas, y nuestra investigación revela precisamente esta brecha.

Esta investigación es parte de un área de investigación en crecimiento en los últimos años, centrándose en la diferencia entre cómo la IA "entiende" y cómo los humanos entienden.

Los modelos de IA llegan a las respuestas identificando patrones familiares; se desempeñan excelentemente cuando hay suficientes ejemplos en los datos de entrenamiento, pero fallan cuando se requiere generalización o razonamiento abstracto.

Lo más importante es que la investigación nos recuerda nuevamente que depender en exceso del resultado de la IA puede generar riesgos.

Saxena declaró: "La IA es realmente potente, pero cuando las tareas implican tanto percepción como razonamiento preciso, aún necesitamos pruebas rigurosas, configurar lógica de respaldo y, en muchos casos, intervención humana."

Otro autor, Aryo Pradipta Gema, estudiante de doctorado en la Universidad de Edimburgo, dijo:

La investigación actual en IA a menudo enfatiza tareas de razonamiento complejas, pero irónicamente, muchos sistemas todavía luchan con tareas cotidianas más simples.

Nuestros hallazgos de investigación indican que ha llegado el momento de abordar estas deficiencias de capacidad fundamentales. De lo contrario, la IA podría tener siempre dificultades para implementarse verdaderamente en aplicaciones del mundo real sensibles al tiempo.

Referencias:

https://www.livescience.com/technology/artificial-intelligence/ai-models-cant-tell-time-or-read-a-calendar-study-reveals

https://arxiv.org/abs/2502.05092

https://www.ed.ac.uk/news/most-ai-struggles-to-read-clocks-and-calendars

LLM revela un defecto fatal: ¡simplemente no pueden leer relojes! Doctor se asombra, precisión por debajo del 50%

Compartir URL Corta