Categoría: Evaluación

Modelos Grandes Multimodales Fallan Colectivamente, GPT-4o Solo Tiene un 50% de Tasa de Aprobación de Seguridad: SIUO Revela Puntos Ciegos de Seguridad Transmodales
¿Qué tan fuerte es la capacidad de razonamiento de los grandes modelos de lenguaje? Un estudio revela las limitaciones y el potencial de los LLM