Für Sie gelesen: ChatGPT und co. als medizinische Assistenten eher unzuverlässig

Studie "Reliability of LLMs as medical assistants for the general public: a randomized preregistered study"*

Die Studie „Reliability of LLMs as medical assistants for the general public: a randomized preregistered study“* untersucht, wie zuverlässig große Sprachmodelle (Large Language Models, LLMs) – wie z. B. GPT-4o, Llama 3 oder Command R+ – als medizinische Assistenten für die Allgemeinbevölkerung funktionieren, wenn sie zur Beantwortung gesundheitlicher Fragen eingesetzt werden. Obwohl LLMs in medizinischen Wissenstests hervorragende Ergebnisse erzielen, zeigt diese Studie, dass diese Ergebnisse nicht auf reale Anwendungssituationen übertragbar sind.

In einer kontrollierten Studie wurden 1.298 Teilnehmer im Vereinigten Königreich randomisierten Gruppen zugeteilt, die entweder mit Hilfe eines LLMs Entscheidungen in medizinischen Szenarien treffen sollten oder ihre üblichen Informationsquellen (z. B. Internetsuche) nutzen konnten. Die Szenarien umfassten zehn typische medizinische Fälle, in denen die Teilnehmer Symptome interpretieren und Empfehlungen zur richtigen Handlung (z. B. Selbstversorgung, Arztbesuch, Notaufnahme) abgeben sollten.

Die Ergebnisse zeigen einen deutlichen Unterschied zwischen der Leistungsfähigkeit der Modelle allein und ihrer Anwendbarkeit im Zusammenspiel mit Menschen. Zwar identifizierten LLMs, wenn sie direkt getestet wurden, relevante medizinische Zustände in über 90 % der Fälle und gaben korrekte Handlungsanweisungen in mehr als der Hälfte, doch Teilnehmer, die mit LLMs interagierten, waren bei Diagnose und Entscheidung oft sogar schlechter als die Kontrollgruppe, die traditionelle Informationswege nutzte.

Die Studie identifiziert vor allem Interaktionsprobleme zwischen Nutzer und LLM als Ursache: Nutzer geben oft nicht genug oder unzureichende Informationen ein, missverstehen Antworten oder folgen den Empfehlungen nicht korrekt. Standardisierte Benchmarks, die allein Wissensfragen testen, sagten diese realen Misserfolge nicht vorher.

Die Autoren betonen daher, dass Leistung in Prüfungs- oder Simulationsumgebungen nicht ausreicht, um die Sicherheit und Verlässlichkeit von KI-Assistenten in der medizinischen Praxis zu beurteilen. Stattdessen sei systematische, realitätsnahe Nutzerforschung notwendig, bevor LLMs als offizielle medizinische Beratungswerkzeuge für die Öffentlichkeit eingesetzt werden.

*Bean, A.M., Payne, R.E., Parsons, G. et al. Reliability of LLMs as medical assistants for the general public: a randomized preregistered study. Nat Med 32, 609–615 (2026). doi.org/10.1038/s41591-025-04074-y

Zurück zur Übersicht