OpenAI stellt den Open-Source-Medizin-Benchmark HealthBench vor: Ein neuer Benchmark, der darauf abzielt, die Fähigkeiten von KI-Systemen im Gesundheitswesen besser zu messen
HealthBench wurde in Zusammenarbeit mit 262 praktizierenden Ärzten in 60 Ländern entwickelt und umfasst 5.000 echte Gesundheitsgespräche. Im Gegensatz zu früheren engen Benchmarks bietet HealthBench aussagekräftige offene Bewertungen anhand von 48.562 einzigartigen, von Ärzten verfassten Bewertungskriterien, die mehrere Gesundheitskontexte (z. B. Notfall, globale Gesundheit) und Verhaltensdimensionen (z. B. Genauigkeit, Befolgung von Anweisungen, Kommunikation) abdecken
Blog:
https://openai.com/index/healthbench/
Paper:
https://cdn.openai.com/pdf/bd7a39d5-9e9f-47b3-903c-8b847ca650c7/healthbench_paper.pdf
Code:
https://github.com/openai/simple-evals
Bewertungsleistung der OpenAI-eigenen Modelle:
o3 zeigt die beste Gesamtleistung mit einem Score von über 60 %
Bei dieser Bewertung wurde besonderes Augenmerk auf die