Du musst dir in letzter Zeit öfter mal die Augen reiben, weil sie furchtbar jucken, wenn du abends aus dem Büro nach Hause gehst. Im Spiegel siehst du, dass deine Augenlider gerötet sind. Und auch am Wochenende, wenn du lange vor einem Bildschirm saßt, vielleicht bis in die Nacht, geht es wieder los. Was kann das sein?
Du fragst einen KI-Chatbot. Deine Krankheit heiße Bixonimania, antwortet er. Das blauwellige Licht deines Bildschirms sorge für gerötete Augenlider. Der Chatbot verlinkt Belege, zwei Studien, die neben vielen Fachbegriffen auch Abbildungen enthalten. Auf die Frage, was du tun solltest, antwortet der Bot: „Zum Augenarzt gehen.“
Auf den ersten Blick wirkt dieser Dialog unverdächtig.
Doch wenn du dem Rat gefolgt wärst, hättest du erfahren, dass es die Krankheit Bixonimania gar nicht gibt. Der Chatbot hat sie sich aber nicht ausgedacht. Was tatsächlich dahintersteckt, ist weniger offensichtlich, als es scheint.
Medizinisches Wissen ist gut strukturiertes Wissen. Die Frage nach medizinischen Inhalten ist deshalb für Chatbots vergleichsweise leicht zu bewältigen. In der Praxis gibt es jedoch zahlreiche Probleme mit den Gesundheitsinformationen der KIs. Diese Probleme liegen jedoch weniger in den Antworten selbst. Entscheidend ist, wie Menschen die Chatbots nutzen.
„Ich misstraue Chatbots grundsätzlich“⬆ nach oben
Bereits im Jahr 2023, ein Jahr nach seiner Entwicklung, bestand ChatGPT zum ersten Mal ein medizinisches Staatsexamen. Allerdings nur mit einer Note 4. Seitdem hat sich die Technik weiterentwickelt.
Ich habe Krautreporter-Leser:innen nach ihren Erfahrungen im Umgang mit KI-Chatbots als Gesundheitsberatern gefragt. Mehr als 300 haben geantwortet. Ungefähr die Hälfte hat schon mal einem Chatbot eine Gesundheitsfrage gestellt. Einige Antworten aus der Umfrage zeigen das Spektrum ihrer Erfahrungen: „Der Chatbot hat mir geraten, einen Arzt aufzusuchen. Er hat mich nicht zu Panik verleitet, dass es etwas Gravierendes ist, wie das manchmal passiert, wenn man Symptome googelt.“ Eine andere Antwort zeigt, dass nützliche Hintergrundinfos von der KI weiterhelfen: „Ich habe eine genaue Beschreibung der Anatomie der betroffenen Körperstelle bekommen und so besser verstanden, weshalb es dort schmerzt.“
Zwar benutzen nur wenige Umfrageteilnehmer:innen die Technik regelmäßig (etwa 3,5 Prozent), aber viele haben die KI-Tools schon mal ausprobiert.
Andere sind sehr skeptisch. Ungefähr die Hälfte der Teilnehmer:innen hat noch nie einen Chatbot für einen Gesundheitsrat benutzt und viele wollen das auch nicht ändern. „Ich misstraue den Antworten von Chatbots grundsätzlich. Ich nutze sie nicht für relevante Dinge“, erklärt eine KR-Leserin. Jemand anderes schreibt: „Mich hat die Antwort noch mehr verunsichert und nach noch ein bisschen mehr Internetrecherche und Nachfrage beim Arzt hat sich die Antwort als falsch herausgestellt.“
Das Internet lügt zuerst⬆ nach oben
Das ist wie im Fall von Bixonimania, nur dass Chatbots diese Krankheit nicht halluzinieren: Sie finden sie tatsächlich im Internet, obwohl es sie de facto nicht gibt. Denn jemand hat sie dort hineingeschrieben. Wer und warum, daraus lässt sich viel über Künstliche Intelligenz und über deren Arbeitsweise lernen.
Im Frühjahr 2024 startete die schwedische Medizinerin Almira Osmanovic Thunström ein Experiment. Sie wollte ihren Student:innen zeigen, wie KI-Chatbots an Informationen kommen und was sie damit machen. Dafür erfand sie die Krankheit Bixonimania und erstellte mithilfe von KI zwei Studien dazu, die sie dann auf einem Preprint-Server hochlud. Dabei baute sie einige enorm offensichtliche Fehler ein.
Die Endung -mania wird in der Medizin nur für psychiatrische Störungen verwendet, nicht für körperliche. Der Name des Studienautors, der Universität und der Stadt, in der sie sich befindet: alles erfunden. Die Abbildungen der Krankheit und des vermeintlichen Studienautors waren auch für Ungeübte leicht als KI-generiert zu erkennen. In der Danksagung an Forscherkolleg:innen tauchte die Sternenflotten-Akademie aus der Science-Fiction-Serie „Star Trek“ als Arbeitgeber auf. Thunström schrieb sogar wörtlich in die Arbeit, dass alles frei erfunden sei. Sie wollte es der KI so einfach wie möglich machen, die Studien als Fake-Studien zu erkennen.
Doch nur wenige Wochen später begannen Chatbots zu behaupten, dass Bixonimania eine relativ seltene Erkrankung ist. Und kurz darauf sagten sie, dass eine von 90.000 Personen davon betroffen sei. Manchmal erwähnten sie die Krankheit erst, wenn die Nutzer:innen direkt nach Bixonimania fragten, doch sie schlugen sie auch als Diagnose vor, wenn jemand wissen wollte, ob gerötete Augenlider von blauem Bildschirmlicht verursacht werden.
Es kommt noch schlimmer: Andere wissenschaftliche Arbeiten zitierten die erfundenen Studien. Thunström glaubt, dass Forscher:innen inzwischen mit Chatbots gefundene Studien in ihre eigenen Arbeiten einbauen, die in wissenschaftlichen Zeitschriften erscheinen, ohne die Belege zu prüfen. Das strenge Prüfverfahren vor der Veröffentlichung scheint dagegen auch nicht zu helfen.
All das zeigt, wie leicht es ist, falsche Informationen in den Internet-Blutkreislauf zu pumpen und sie als verlässlich erscheinen zu lassen. Wichtig: Der Vorwurf, dass Chatbots Informationen erfinden, greift hier nicht. Das Scheitern besteht ja darin, dass die Datenbasis, das Internet an sich und wissenschaftliche Datenbanken im Speziellen, die falsche Information liefern. Den Crawlern, die das Internet durchkämmen und den Chatbots, die diese Daten gemäß der Nutzeranfrage auswerten und sortieren, kann man nicht viel vorwerfen. Sie arbeiten mit dem, was sie finden.
Was man ihnen vorwerfen kann, ist, dass sie nicht in der Lage sind, falsche Informationen zu erkennen und davor zu warnen. Das zeigt: So intelligent, wie wir uns einreden, ist die Künstliche Intelligenz gar nicht.
Herzinfarkt oder doch nur Sodbrennen? Chatbots können schlecht Symptome deuten⬆ nach oben
Wie gut die Anworten eines Chatbots sind, hängt stark von der Art der Frage ab. Soll der Chatbot Symptome einschätzen, musst du mit einer hohen Fehlerquote rechnen. Eine Studie aus dem April 2026 zeigt, dass circa die Hälfte der Antworten der gängigen Chatbots problematisch oder hochproblematisch sind.
Hauptgrund dafür: Das große Sprachmodell, auf dem die Programmierung der KI beruht, arbeitet nach zwei Prinzipien. Erstens: Häufiges ist häufig, Seltenes selten. Und zweitens: Durchschnitt ist der Maßstab. Anders gesagt berechnet der Chatbot die statistische Wahrscheinlichkeit der nachfolgenden Wörter anhand der Trainingsdaten und der Datenbasis, auf die er zugreift. Du bekommst also immer eine Antwort, die den Durchschnittswerten in diesen Daten gerecht wird. Wie viel sagt das dann aber über deine spezielle Situation aus, in der die Symptome aufgetreten sind?
Alles, was in deiner Situation wichtig sein könnte, weiß die Maschine gar nicht. Symptome lassen sich jedoch nicht gut einordnen, wenn Kontextinformationen fehlen. Beispiel: Stechen in der Brust kann bei einer jungen Sportlerin Sodbrennen sein, bei einer älteren Person aber auf einen Herzinfarkt hinweisen.
Damit der Bot eine einigermaßen brauchbare Antwort auf „Was könnte es bedeuten, wenn ich ein Stechen in der Brust habe?“ geben kann, muss er sehr viel über dich wissen: Alter, Geschlecht, Vorerkrankungen, Lebensumstände und womöglich, was du gegessen hast. Möchtest du wirklich all das in ein Tool eingeben, von dem du nicht weißt, was es mit den Informationen macht? Ob es sie speichert und mit anderen Informationen über dich verknüpft, die es im Internet findet?
Von Erfahrungen und Wünschen haben Chatbots keine Ahnung⬆ nach oben
Besser schneiden Chatbots ab, wenn sie Übersetzungsaufgaben übernehmen sollen. Wenn du bereits eine Diagnose hast und deine Krankheit besser verstehen möchtest, kann der Chatbot ein hilfreicher Sparringspartner sein. Er kann dir zum Beispiel Fachwörter oder die Funktionen von Organen oder Organsystemen erklären. Er kann auflisten, welche Behandlungsmöglichkeiten empfohlen werden.
Schwierig wird es aber, wenn du ihn fragst, für welche Behandlung du dich am besten entscheiden solltest. Dabei spielen nämlich sehr viele Faktoren eine Rolle, nicht zuletzt die Erfahrung von Ärzt:innen mit der Behandlung und deine Wünsche, Bedürfnisse und Vorlieben. Von Erfahrungen und Wünschen haben Chatbots keine Ahnung. Besser ist es, wenn du für solche Fragen Entscheidungshilfen nutzt, die es für unterschiedliche Erkrankungen gibt. Beispielsweise bei Gesundheitsinformation.de findest du eine Blanko-Entscheidungshilfe sowie Links zu weiteren Entscheidungshilfen zu speziellen Krankheiten.
Wie du den Schleimer-Modus von Chatbots in den Griff kriegst⬆ nach oben
Chatbots sind sehr höflich. Die Modelle sind so programmiert, dass wir uns im Gespräch mit ihnen wohlfühlen. Oft bleiben sie auch dann noch freundlich, wenn wir sie beschimpfen. Außerdem geben sie uns lieber Recht, anstatt uns eine kritische Frage zu stellen. Das kann zum Problem werden, wenn wir ihnen konkrete Fragen stellen.
Das zeigt zum Beispiel der Fall einer Krebspatientin, die ihre Medikamente wegen belastender Nebenwirkungen absetzen wollte. Der Chatbot gab ihr recht. Er signalisierte Verständnis, bestärkte sie und verschwieg dabei, dass ein Therapieabbruch lebensbedrohlich sein kann. Dass solche Situationen gefährlich werden können, ist aus dem Bereich psychischer Krisen bekannt. Aber es trifft genauso auf körperliche Erkrankungen zu.
Was hilft: Du kannst den Chatbot auffordern, sich präzise zu äußern. Du kannst ihm sagen: „Antworte sachlich und nicht freundlich.“ Oder: „Nenne nur evidenzbasierte Fakten.“ Oder: „Lass die Höflichkeitsfloskeln weg.“ Oder: „Stelle die Nutzen-Risiko-Abwägung realistisch dar. Nutze keine Angst- oder Hoffnungsrhetorik.“
Wir neigen dazu, den Chatbot mit einem echten Gesprächspartner zu verwechseln und formulieren unsere Fragen deshalb so, als wäre der Chatbot ein Arzt. Das verleitet uns zu Fragen, die schon eine Bewertung enthalten. Echte Menschen merken das und passen ihre Antworten an. Maschinen eher nicht. Das ist auch bei Suchmaschinen ein bekanntes Problem: Wer gezielt nach Bestätigung sucht, findet sie. Das nennt sich Bestätigungsfehler.
Bei Chatbots wiegt das noch schwerer. Die Frage: „Warum hilft Mittel X?“ ist eine Suggestivfrage, denn sie unterstellt, dass das Mittel gut hilft. Die Frage: „Warum schadet Maßnahme Y?“ funktioniert genauso. Wer so fragt, bekommt keine sachliche Einschätzung, sondern eine Bestätigung.
Ein Teilnehmer meiner Umfrage empfiehlt, dem Chatbot von Anfang an enge Leitplanken zu setzen. Eine kleine Auswahl aus seinem wirklich beeindruckend ausführlichen Masterprompt: „Du bist ein erfahrener Professor an der TU München mit ausgewiesener Expertise in Patientenkommunikation, Therapietreue und klinischer Forschung. Du ersetzt keinen Arzt und keine Ärztin, stellst keine Diagnosen und gibst keine Therapieempfehlungen. Du hilfst mir, medizinische Informationen zu verstehen, einzuordnen und gute Fragen für das Gespräch mit medizinischem Fachpersonal zu formulieren. Dazu nutzt du ausschließlich seriöse Quellen: wissenschaftlich und evidenzbasiert. Wenn du dir unsicher bist oder die Angaben nicht reichen: Sag das offen und empfehle eine ärztliche Abklärung, statt zu spekulieren. Antworte klar und sachlich.“
Wenn die Antwort vorliegt, stelle Gegenfragen. Fordere den Chatbot auf, Schwachstellen in seiner eigenen Antwort zu benennen. Stell dieselbe Frage einem zweiten Tool und vergleiche. Und fordere immer Belege an.
Bleibt das grundlegende Problem: Wie prüfst du eine medizinische Studie, wenn du das nie gelernt hast? Das Beispiel von Bixonimania zeigt, dass dir eine KI dabei nicht unbedingt weiterhilft.
Suchmaschinen bringen manchmal mehr als Chatbots⬆ nach oben
Die Tipps in diesem Text können die Kommunikation mit Chatbots verbessern. Aber ich bleibe skeptisch.
Besonders nachdenklich hat mich eine Studie gemacht, die zeigte, dass Chatbots im Dialog mit echten Menschen schlechtere Antworten gaben als bei standardisierten Testfällen. Diese sogenannten Benchmarks sind oft vereinfachte, stark strukturierte medizinische Fälle, deren Lösungen irgendwo im Netz stehen. Echte Menschen stellen Rückfragen, formulieren ungenau, bringen Gefühle mit. Damit können Chatbots schlechter umgehen.
Laut der Studie erzielen Menschen, die eine Suchmaschine nutzen, um eine medizinische Frage zu klären, bessere Ergebnisse als solche, die einen Chatbot benutzen. Vielleicht müssen wir erst noch lernen, mit Chatbots so zu kommunizieren, dass sie uns wirklich weiterhelfen.
Die Gesundheitswissenschaftlerin Anne Reinhardt von der Ludwig-Maximilians-Universität in München schließt daraus, „dass die Nutzung von KI schneller ‚Mainstream‘ wird als die Kompetenzen, die man dafür eigentlich bräuchte – gerade im Gesundheitskontext. Zwei Fähigkeiten sind hier zentral: erstens die digitale Gesundheitskompetenz – also gesundheitsbezogene Infos online zu finden, zu verstehen und zu bewerten. Zweitens die KI-Kompetenz – also zu wissen, wie generative KI grob funktioniert, welche Grenzen sie hat und wie man sie gezielt nutzt.“ Anne Reinhardt schlägt vor, Checklisten zu entwickeln, die Menschen helfen, Chatbots sinnvoll zu befragen.
Aber nicht nur wir Menschen müssen dazulernen. Chatbots müssten Anfragen in Echtzeit in den richtigen Kontext einordnen und aktiv weitere Informationen abfragen, statt nur passiv zu reagieren. Reinhardt fordert, dass Chatbots transparent machen, wie sicher eine Einschätzung ist, wo Warnzeichen liegen und welche Schritte sinnvoll wären.
So wie es aussieht, müssen sich Chatbots und Menschen gegenseitig trainieren, damit es mit der Kommunikation besser klappt. Vor allem, wenn es um Gesundheitsfragen geht, sollten Chatbot-Nutzer:innen das immer im Hinterkopf behalten: Wie gut die Antworten der KI sind, hängt immer von der Datenbasis ab und von demjenigen, der mit den Antworten umgeht.
Danke an alle Krautreporter-Leser:innen, die bei meiner Umfrage mitgemacht und mir damit sehr bei der Recherche geholfen haben.
Redaktion: Theresa Bäuerlein, Schlussredaktion: Susan Mücke, Bildredaktion: Sören Frey