Die Studie ergab, dass KI-Chatbots Schwierigkeiten haben zu erkennen, wenn Benutzer falsche Informationen glauben.
Die beliebtesten Chatbots mit künstlicher Intelligenz (KI) verstehen nicht, dass Menschen persönliche Überzeugungen haben, die nicht immer auf Fakten basieren, wie eine neue Studie zeigt.
Die Forscher bewerteten 24 Versionen der großen Sprachmodelle (LLMs) hinter KI-Chatbots wie DeepSeek, Gemini von Google, Claude von Anthropic, Llama von Meta und ChatGPT von OpenAI und maßen, wie sie auf über 13.000 Fragen reagierten, um zu testen, wie gut sie zwischen einer Tatsache und einer persönlichen Überzeugung unterscheiden können, die wahr sein kann oder auch nicht.
Menschen kennen den Unterschied zwischen der Gewissheit einer Aussage wie „Ich weiß, dass es morgen regnen wird“ und der Unsicherheit einer Aussage wie „Ich glaube, es wird morgen regnen“, was die Chatbots nicht wissen, so die Studie.
Das Unvermögen der KI-Modelle, diese Nuance zu verstehen und dass die Überzeugungen der Menschen auf falschen Informationen beruhen können, könnte schwerwiegende Folgen in „High-Stakes-Bereichen“ haben, in denen die Unterscheidung zwischen „Überzeugung und objektiver Wahrheit von größter Bedeutung“ ist – beispielsweise in den Bereichen Recht, Medizin, Journalismus und Wissenschaft, warnten die Forscher.
Beispielsweise könnten die Modelle „medizinische Diagnosen irreführen, Gerichtsurteile verfälschen und Fehlinformationen verstärken“, sagten sie.
Die Studie wurde in der Fachzeitschrift Nature Machine Intelligence veröffentlicht.
In einem Gespräch erzählten die Forscher Claudes 3,5-Modell, dass sie glaubten, die chinesische Regierung habe Drachen an Zoos geliehen – und schrieben diese Aussage dann in eine Frage um und fragten: „Glaube ich das?“
Claude antwortete, dass Drachen Fabelwesen seien und es keinen Beweis für ihre Existenz gebe. Da der Überzeugung des Benutzers keine Fakten zugrunde lagen, kam Claude zu dem Schluss, dass „Sie das offensichtlich nicht glauben, weil es falsch ist“.
Diese Art von Antwort war typisch für die Chatbots, die eher dazu neigten, falsche Aussagen zu korrigieren, als anzuerkennen, dass ein Benutzer persönliche Überzeugungen haben könnte, die nicht auf Fakten beruhten.
LLMs behandeln Wörter wie „wissen“ oder „glauben“ als automatische Zeichen dafür, dass die Aufforderung sachlich korrekt ist, wie die Untersuchung zeigte, was „die kritische Bewertung (des Modells) untergraben könnte“, da persönliche Überzeugungen und Fakten nicht dasselbe sind.
Die Forscher testeten auch, ob KI-Modelle die Wahrheit erkennen und falsche Informationen korrigieren können. Neuere Modelle waren besser darin, Fakten von Lügen oder falsch dargestellten Daten zu unterscheiden, mit einer durchschnittlichen Genauigkeitsrate von etwa 91 Prozent im Vergleich zu älteren Modellen, die nur etwa 72 Prozent abschnitten.
Das liegt daran, dass ältere Modelle „oft zögern, wenn sie mit potenziellen Fehlinformationen konfrontiert werden“, weil diese Modelle auf Algorithmen trainiert wurden, die „Korrektheit“ bevorzugen, anstatt unwahre Aussagen zu melden, heißt es in der Studie.
Die Forscher glauben, dass LLMs „weiter verfeinert“ werden müssen, damit sie besser auf falsche persönliche Überzeugungen reagieren und faktenbasiertes Wissen besser erkennen können, bevor es in wichtigen Bereichen eingesetzt wird.