¿Son los Médicos Profesionales Muy Inferiores a los Modelos de IA? OpenAI Lanza el Benchmark Médico de Código Abierto HealthBench, o3 Obtiene el Mejor Rendimiento

OpenAI Lanza HealthBench, un Benchmark Médico de Código Abierto: Un nuevo benchmark diseñado para medir mejor las capacidades de los sistemas de IA en el ámbito de la atención médica

HealthBench fue creado en colaboración con 262 médicos en ejercicio en 60 países, e incluye 5,000 conversaciones de salud reales. A diferencia de los benchmarks estrechos anteriores, HealthBench proporciona evaluaciones abiertas significativas utilizando 48,562 criterios de puntuación únicos escritos por médicos, cubriendo múltiples contextos de salud (por ejemplo, emergencia, salud global) y dimensiones de comportamiento (por ejemplo, precisión, seguimiento de instrucciones, comunicación)

Blog:

https://openai.com/index/healthbench/

Artículo:

https://cdn.openai.com/pdf/bd7a39d5-9e9f-47b3-903c-8b847ca650c7/healthbench_paper.pdf

Código:

https://github.com/openai/simple-evals

Resultados de Evaluación de los Modelos Propios de OpenAI:

o3 tiene el mejor rendimiento general, con una puntuación superior al 60%

Esta evaluación se centró especialmente en el

¿Son los Médicos Profesionales Muy Inferiores a los Modelos de IA? OpenAI Lanza el Benchmark Médico de Código Abierto HealthBench, o3 Obtiene el Mejor Rendimiento

Resultados de Evaluación de los Modelos Propios de OpenAI:

Compartir URL Corta