OpenAI Lanza HealthBench, un Benchmark Médico de Código Abierto: Un nuevo benchmark diseñado para medir mejor las capacidades de los sistemas de IA en el ámbito de la atención médica
HealthBench fue creado en colaboración con 262 médicos en ejercicio en 60 países, e incluye 5,000 conversaciones de salud reales. A diferencia de los benchmarks estrechos anteriores, HealthBench proporciona evaluaciones abiertas significativas utilizando 48,562 criterios de puntuación únicos escritos por médicos, cubriendo múltiples contextos de salud (por ejemplo, emergencia, salud global) y dimensiones de comportamiento (por ejemplo, precisión, seguimiento de instrucciones, comunicación)
Blog:
https://openai.com/index/healthbench/
Artículo:
https://cdn.openai.com/pdf/bd7a39d5-9e9f-47b3-903c-8b847ca650c7/healthbench_paper.pdf
Código:
https://github.com/openai/simple-evals
Resultados de Evaluación de los Modelos Propios de OpenAI:
o3 tiene el mejor rendimiento general, con una puntuación superior al 60%
Esta evaluación se centró especialmente en el