Fotomontage: Ein goldener Roboter vor einem Regenbogenhintergrund.

Lyman Hansel Gerona, Evie S./Unsplash

Internet und Technologie

Warum ChatGPT nicht aufhören wird, Fakten zu erfinden

ChatGPT müsste bei fast einem Drittel aller Anfragen „keine Ahnung“ sagen. Tut es aber nicht. Das ließe sich technisch lösen, zeigt eine neue Studie von OpenAI. Warum passiert es dann nicht?

Profilbild von Wei Xing

Eine neue Studie von OpenAI erklärt im Detail, warum ChatGPT und andere große Sprachmodelle (Large Language Models – LLM) sich Antworten ausdenken. Man spricht davon, dass sie „halluzinieren“. Die Studie zeigt auch, warum sich das Problem möglicherweise nicht beheben lässt. Zumindest nicht für die allgemeine Nutzung.

Die Studie liefert die bisher fundierteste mathematische Erklärung darüber, warum KI-Modelle so beharrlich falsche Aussagen treffen. Sie zeigt, dass diese Falschaussagen leider keine Nebenwirkung davon sind, wie Künstliche Intelligenz aktuell trainiert wird. Sie sind mathematisch unvermeidbar.

Falschaussagen können teilweise durch Fehler in den Trainingsdaten erklärt werden. Doch die Forschenden haben nun mathematisch analysiert, wie KI-Systeme lernen und kamen zu dem Schluss: Selbst mit perfekten Trainingsdaten halluziniert KI immer noch.

Große Sprachmodelle reagieren auf Anfragen, indem sie auf Grundlage von Wahrscheinlichkeiten jeweils ein Wort in einem Satz vorhersagen. Und genau das verursacht die Probleme. Die Forschenden wiesen nach, dass die Fehlerquote doppelt so hoch ist, wenn die KI Sätze generiert, als wenn dieselbe KI auf eine einfache Ja/nein-Frage antwortet. Der Grund dafür ist, dass sich Fehler summieren, je mehr Vorhersagen getroffen werden.

Anders gesagt: Wie häufig eine KI halluziniert, hängt im Wesentlichen davon ab, wie gut KI-Systeme gültige von ungültigen Antworten unterscheiden können. In vielen Wissensbereichen lassen sich Aussagen aber nicht so eindeutig klassifizieren, weshalb sich Halluzinationen nicht vermeiden lassen.

Außerdem zeigte sich: Je seltener ein Fakt in den Trainingsdaten vorkommt, desto wahrscheinlicher ist es, dass das Modell halluziniert, wenn es danach gefragt wird. Zum Beispiel passierte dies bei den Geburtstagen bekannter Personen. Wenn diese in 20 Prozent der Fälle nur einmal in den Trainingsdaten auftauchten, dann gaben die Basismodelle in mindestens 20 Prozent der Anfragen zu den Geburtstagen falsche Antworten.
Als die Forschenden modernste Modelle nach dem Geburtstag von Adam Kalai, einem der Autoren der Studie, fragten, gab DeepSeek-V3 beharrlich drei verschiedene falsche Antworten: den 3. Juli, den 15. Juni und den 1. Januar. Sein Geburtstag liegt im Herbst, das heißt, die Antworten waren nicht einmal annähernd richtig.

Die Evaluationsfalle

Wirklich besorgniserregend ist folgendes Ergebnis der Studie: Halluzinationen gibt es auch dann, wenn die Macher:innen einer KI sich bemühen, Fehler auszumerzen (zum Beispiel durch umfangreiches menschliches Feedback zu den Antworten, bevor die KI öffentlich verfügbar gemacht wird). Die Autor:innen der Studie untersuchten zehn wichtige KI-Bewertungsmodelle (Benchmarks), darunter diejenigen, die von Google, OpenAI und den führenden Ranglisten für KI-Modelle verwendet werden. Dabei zeigte sich, dass neun Benchmarks binäre Bewertungssysteme nutzen, die null Punkte vergeben, sobald die KI Unsicherheit zum Ausdruck brachte.

Dies führt zu einer Situation, die die Autor:innen als „Epidemie“ bezeichnen: Ehrliche Antworten werden bestraft. Wenn ein KI-System „Ich weiß es nicht“ sagt, erhält es dieselbe Bewertung, die es bekommen hätte, wenn es komplett falsche Informationen geliefert hätte. Die optimale Strategie in diesem Bewertungssystem ist daher: zu raten.

Die Forschenden weisen dies mathematisch nach. In einem binären Punktesystem ist es ganz egal, wie wahrscheinlich es ist, dass eine bestimmte Antwort richtig ist. Die erwartbare Punktzahl für eine geratene Antwort ist immer höher als die Punktzahl für eine fehlende Antwort.
 

Die Lösung, die alles kaputt machen würde

Als Lösung schlägt OpenAI vor, dass die KI vor ihrer Antwort angibt, wie sicher die Antwort ist, und dass sie auch auf dieser Grundlage bewertet wird. Man könnte die KI zum Beispiel auffordern: „Antworte nur, wenn du zu mehr als 75 Prozent sicher bist, dass die Antwort richtig ist, denn bei Fehlern gibt es drei Punkte Abzug, für richtige Antworten gibt es einen Punkt.“

Die Berechnungen der Forschenden von OpenAI zeigen, dass, vorausgesetzt die Schwellenwerte für richtige Antworten werden sinnvoll gesetzt, die KI-Systeme Unsicherheiten zugeben und nicht mehr raten würden. Dies würde also zu weniger Halluzinationen führen. Das Problem ist allerdings, was das für die Nutzererfahrung bedeuten würde.

Die Forschenden gehen in einer konservativen Schätzung auf Grundlage von Unsicherheiten in den Trainingsdaten davon aus, dass die KI bei 30 Prozent der Anfragen mit „Ich weiß es nicht“ antworten würde. Die Nutzer:innen sind es nun aber gewohnt, eindeutige Antworten auf jede erdenkliche Frage zu bekommen. Ein „Ich weiß es nicht“ würde also wahrscheinlich schnell dazu führen, dass sie sich von diesen Systemen verabschieden.
 
Ich habe diese Art von Problem schon in einem anderen Bereich meines Lebens erlebt. Ich unterstütze ein Projekt zur Bewertung der Luftqualität in Salt Lake City, Utah. Wenn das System bei widrigen Wetterbedingungen oder während der Kalibrierung der Geräte Unsicherheiten bei den Messungen meldet, ist das Interesse der Nutzer:innen geringer, als wenn eindeutige Messwerte angezeigt werden – selbst dann, wenn sich diese vermeintlich zuverlässigen Messwerte bei der Validierung als ungenau erweisen.

Der wirtschaftliche Aspekt

Es wäre nicht schwer, die Studienergebnisse dazu zu nutzen, Halluzinationen zu verringern. Methoden, mit denen man Unsicherheiten quantifizieren kann, gibt es seit Jahrzehnten. Mithilfe dieser könnten vertrauenswürdige Schätzungen erstellt werden, wie sicher oder unsicher eine Antwort ist, was wiederum der KI erlauben würde, smartere Entscheidungen zu treffen.

Doch selbst, wenn sich das Problem lösen ließe, dass die Nutzer:innen Unsicherheiten nicht mögen, wäre da noch eine größere Herausforderung: der wirtschaftliche Aspekt. Sprachmodelle, die Unsicherheiten berücksichtigen, erfordern deutlich mehr Rechenaufwand als die heutigen Modelle, da sie mehrere mögliche Antworten miteinander abgleichen und herausfinden müssen, wie sicher ihre Antwort ist. Für ein System, das Millionen Anfragen täglich verarbeitet, würde dies einen dramatischen Anstieg der Betriebskosten bedeuten.

Mehr zum Thema

Ausgefeiltere Ansätze wie aktives Lernen, bei denen KI-Systeme Rückfragen stellen, um Unsicherheiten zu reduzieren, können die Genauigkeit verbessern, erhöhen jedoch den Rechenaufwand noch zusätzlich. Solche Methoden funktionieren gut in spezialisierten Bereichen wie dem Chipdesign. Hier kosten falsche Antworten Millionen Dollar, was den höheren Rechenaufwand rechtfertigt. Für Nutzeranwendungen, bei denen Nutzer:innen schnelle Antworten erwarten, sind diese Kosten nicht tragbar.

Bei KI-Systemen, die kritische Geschäftsabläufe oder wirtschaftliche Infrastrukturen verwalten, ist die Kosten-Nutzen-Rechnung klar. Bei KI-Agenten für Lieferkettenlogistik, Finanzhandel oder medizinische Diagnosen übersteigen die Kosten von Halluzinationen bei Weitem die Ausgaben, die entstehen, wenn Modelle entscheiden müssen, ob sie zu unsicher sind. In diesen Bereichen werden die in der Studie vorgeschlagenen Lösungen wirtschaftlich rentabel – sogar notwendig. Die Kosten, die durch unsichere KI-Agenten entstehen, müssen einfach höher sein.

Allerdings liegt der Fokus der KI-Entwicklung immer noch auf Verbraucheranwendungen. Nutzer:innen wollen Systeme, die zuverlässige Antworten auf jede erdenkliche Frage liefern. Die verwendeten Benchmarks belohnen Systeme, die eher raten, als zuzugeben, dass sie es nicht sicher wissen. Die Rechenkosten begünstigen schnelle, übertrieben eindeutige Antworten gegenüber langsamen, unsicheren Antworten.
 
Sinkende Energiekosten pro Token (die kleinsten Dateneinheiten bei Sprachmodellen, Anm. d. Red) und fortschrittliche Chip-Architekturen könnten es letztendlich erschwinglicher machen, KI-Systeme entscheiden zu lassen, ob sie sich sicher genug sind, eine Frage zu beantworten. Allerdings wäre der Rechenaufwand im Vergleich zu den heutigen ratenden Modellen unabhängig von den absoluten Hardwarekosten weiterhin relativ hoch.

Kurz gesagt, die Studie von OpenAI verdeutlicht, ohne es zu wollen, eine unbequeme Wahrheit: Die wirtschaftlichen Anreize, die die Entwicklung von Verbraucher-KI vorantreiben, stehen der Reduzierung von Halluzinationen grundlegend entgegen. Solange sich diese Anreize nicht ändern, wird es weiter Halluzinationen geben.


Dieser Artikel ist zuerst auf Englisch bei The Conversation erschienen. Hier könnt ihr den Originalartikel lesen.

Übersetzung: Nina Roßmann, Schlussredaktion: Susan Mücke, Bildredaktion: Philipp Sipos, Audioversion: Christian Melchert

The Conversation

 

Warum ChatGPT nicht aufhören wird, Fakten zu erfinden

0:00 0:00

Einfach unterwegs hören mit der KR-Audio-App