Sind Professionelle Ärzte Weit Schlechter als KI-Modelle? OpenAI Stellt den Open-Source-Medizin-Benchmark HealthBench vor, o3 Zeigt die Beste Leistung

OpenAI stellt den Open-Source-Medizin-Benchmark HealthBench vor: Ein neuer Benchmark, der darauf abzielt, die Fähigkeiten von KI-Systemen im Gesundheitswesen besser zu messen

HealthBench wurde in Zusammenarbeit mit 262 praktizierenden Ärzten in 60 Ländern entwickelt und umfasst 5.000 echte Gesundheitsgespräche. Im Gegensatz zu früheren engen Benchmarks bietet HealthBench aussagekräftige offene Bewertungen anhand von 48.562 einzigartigen, von Ärzten verfassten Bewertungskriterien, die mehrere Gesundheitskontexte (z. B. Notfall, globale Gesundheit) und Verhaltensdimensionen (z. B. Genauigkeit, Befolgung von Anweisungen, Kommunikation) abdecken

Blog:

https://openai.com/index/healthbench/

Paper:

https://cdn.openai.com/pdf/bd7a39d5-9e9f-47b3-903c-8b847ca650c7/healthbench_paper.pdf

Code:

https://github.com/openai/simple-evals

Bewertungsleistung der OpenAI-eigenen Modelle:

o3 zeigt die beste Gesamtleistung mit einem Score von über 60 %

Bei dieser Bewertung wurde besonderes Augenmerk auf die

Sind Professionelle Ärzte Weit Schlechter als KI-Modelle? OpenAI Stellt den Open-Source-Medizin-Benchmark HealthBench vor, o3 Zeigt die Beste Leistung

Bewertungsleistung der OpenAI-eigenen Modelle:

Kurz-URL teilen