Sind Professionelle Ärzte Weit Schlechter als KI-Modelle? OpenAI Stellt den Open-Source-Medizin-Benchmark HealthBench vor, o3 Zeigt die Beste Leistung

OpenAI stellt den Open-Source-Medizin-Benchmark HealthBench vor: Ein neuer Benchmark, der darauf abzielt, die Fähigkeiten von KI-Systemen im Gesundheitswesen besser zu messen

圖片

HealthBench wurde in Zusammenarbeit mit 262 praktizierenden Ärzten in 60 Ländern entwickelt und umfasst 5.000 echte Gesundheitsgespräche. Im Gegensatz zu früheren engen Benchmarks bietet HealthBench aussagekräftige offene Bewertungen anhand von 48.562 einzigartigen, von Ärzten verfassten Bewertungskriterien, die mehrere Gesundheitskontexte (z. B. Notfall, globale Gesundheit) und Verhaltensdimensionen (z. B. Genauigkeit, Befolgung von Anweisungen, Kommunikation) abdecken

圖片

Blog:

https://openai.com/index/healthbench/

Paper:

https://cdn.openai.com/pdf/bd7a39d5-9e9f-47b3-903c-8b847ca650c7/healthbench_paper.pdf

Code:

https://github.com/openai/simple-evals

Bewertungsleistung der OpenAI-eigenen Modelle:

o3 zeigt die beste Gesamtleistung mit einem Score von über 60 %

圖片

圖片

Bei dieser Bewertung wurde besonderes Augenmerk auf die

Hauptkategorie:Medizinische KI

Unterkategorien:OpenAIGesundheitswesenSprachmodelleKI-Bewertung


Vorheriger:Trainieren Sie ein Modell mit globaler ungenutzter Rechenleistung, Leistung vergleichbar mit R1, Jensens Himmel ist eingestürzt! Karpathy hat einst darin investiert

Nächster:NVIDIA Ermöglicht Intelligenteren KI-Werkzeuggebrauch: Tiefgehende Analyse des Nemotron-Research-Tool-N1 Modells

Kurz-URL teilen