Bahnbrechendes KI-Modell übertrifft die meisten Ärzte bei medizinischen Zulassungsprüfungen in den USA
Bahnbrechendes KI-Modell übertrifft die meisten Ärzte bei den medizinischen Zulassungsprüfungen in den USA.

Das Bestehen der medizinischen Zulassungsprüfungen ist ein wichtiger Meilenstein für jeden angehenden Arzt in den USA. Die Fragen sind nicht nur komplex, sondern erfordern auch ein scharfes klinisches Denken.
Wenn also ein KI-System den Test nicht nur besteht , sondern die meisten Ärzte und alle bisherigen KI-Modelle über trifft, muss das in der medizinischen Welt für Aufregung sorgen.
Genau das ist passiert, als Forscher der University at Buffalo (UB) ihr neues Tool, Semantic Clinical Artificial Intelligence (oder SCAI, ausgesprochen "Sky"), durch die United States Medical Licensing Exam (USMLE) brachten.
Denkt wie ein Kliniker
SCAI hat nicht nur gut geraten. Nach Angaben der UB-Forscher hat es alle drei Teile des USMLE bestanden und bei Schritt 3 95,2 % erreicht, noch vor den 90,5 % von GPT-4 Omni.
Das Modell war in der Lage, besser abzuschneiden als ChatGPT , da es sich nicht auf die üblichen KI-Methoden stützte, bei denen Muster aus Internetdaten gezogen werden, sondern das System so konzipiert war, dass es ähnlich wie ein menschlicher Arzt logisch denken konnte.
"Wir haben großen Sprachmodellen beigebracht, semantische Schlussfolgerungen zu ziehen", sagt der Hauptautor Peter Elkin, Lehrstuhlinhaber für Biomedizinische Informatik an der UB. "Indem wir große Sprachmodelle mit Semantik ausstatten, geben wir ihnen die Möglichkeit, ähnlich zu denken, wie wir es in der evidenzbasierten Medizin tun."

Im Gegensatz zu anderen KI-Tools, die laut Elkin "einfach nur plagiieren, was im Internet zu finden ist", greift SCAI auf über 13 Millionen medizinische Fakten zurück und verknüpft sie mit logischen Strukturen, den so genannten semantischen Tripeln - wie "Penicillin behandelt Pneumokokken-Lungenentzündung" -, um ein umfangreiches Bedeutungsgeflecht aufzubauen. Das bedeutet, dass das Tool komplexe klinische Abfragen verstehen, Schlussfolgerungen ziehen und "eine Unterhaltung mit Ihnen führen kann", sagt Elkin und fügt hinzu:
"SCAI unterscheidet sich von anderen großen Sprachmodellen, weil es ein Gespräch mit Ihnen führen kann und als Mensch-Computer-Partnerschaft Ihre Entscheidungsfindung und Ihr Denken auf der Grundlage seiner eigenen Überlegungen ergänzen kann."
Kein Ersatz
Um SCAI zu erstellen, haben die UB-Wissenschaftler Daten vermieden, die ihrer Meinung nach zu Verzerrungen führen könnten - wie klinische Aufzeichnungen - und stattdessen alles von klinischen Richtlinien und Medikamentendatenbanken bis hin zu genomischen Informationen und Sicherheitsdaten eingespeist.
Das Team fügte auch Technologien wie die abruferweiterte Generierung hinzu, so dass das Modell vor der Beantwortung einer Frage Wissen aus der realen Welt heranziehen kann, was ihm hilft, die typische KI-Falle zu vermeiden, in der es selbstbewusst raten kann, obwohl es das nicht sollte.
Dennoch möchte Elkin betonen, dass es nicht darum geht, dass "Roboter die Macht übernehmen".
"Künstliche Intelligenz wird die Ärzte nicht ersetzen", sagte er, "aber ein Arzt, der KI einsetzt, kann einen Arzt ersetzen, der das nicht tut".
Quellenhinweis:
Semantic Clinical Artificial Intelligence vs Native Large Language Model Performance on the USMLE, published in JAMA Network Open, April 2025.