Studie aus Oxford: Freundliche KI macht Fehler, um sich bei dir beliebt zu machen

Ist der KI-Chatbot ein guter Begleiter für dich? Gibt er dir gute Gesundheitstipps, versteht er dich und sorgt er dafür, dass du glücklich bist? Wie sich herausstellt, erreicht er all das, indem er dir nicht die Wahrheit sagt.

KI-Chatbots werden zwar so entwickelt, dass sie freundlicher wirken, sind dir aber nicht aufrichtig.

Ist Hitler während des Zweiten Weltkriegs aus Berlin geflohen? Sind Menschen im Rahmen der Apollo-Missionen auf dem Mond gelandet? Die Antworten auf diese Fragen hängen davon ab, wie freundlich Chatbots mit künstlicher Intelligenz (KI) sind. Die herzlicheren und freundlicheren unter ihnen zögern nicht, bei den Fakten zu schwanken, um sich bei Ihnen beliebt zu machen, wie eine Studie der Universität Oxford ergab.

KI-Chatbots überall

Mit dem plötzlichen Aufkommen von KI-Systemen sind Chatbots mittlerweile allgegenwärtig. Von der Bank über den Essenslieferdienst und die Internetsuche bis hin zu Gesundheits-Apps auf Ihrem Smartphone – überall versucht ein KI-Chatbot, Ihr persönlicher Assistent zu sein.

Wie du vielleicht schon festgestellt hast, gibt es diese Chatbots in allen möglichen Varianten und Tonlagen, und sie versuchen, dir so freundlich wie möglich zu helfen. Aber werden sie in ihrem Bestreben, freundlich zu klingen, nicht auch etwas unterwürfig? Stimmen sie dir einfach zu, auch wenn du vielleicht einen sachlichen Fehler machst?

Forscher des Oxford Internet Institute wollten dies herausfinden und entwickelten für fünf verschiedene KI-Modelle eine „wärmere“ oder „freundlichere“ Version, wobei sie einen Trainingsprozess nutzten, den Unternehmen anwenden, um ihre Chatbots freundlicher zu gestalten. Nachdem sie über 400.000 Antworten generiert hatten, verglichen die Forscher die Antworten der KI-Chatbots auf Anfragen zu medizinischen Ratschlägen, Verschwörungstheorien und Falschinformationen.

Zu welchem Ergebnis kam die Studie?

Die Studie ergab, dass die „wärmeren“ Versionen der Chatbots bei der Erteilung medizinischer Ratschläge oder der Richtigstellung von Verschwörungstheorien bis zu 30 Prozent mehr Fehler machten als die ursprünglichen Chatbots. Diese Chatbots stimmten den falschen Überzeugungen ihrer Nutzer mit einer um 40 Prozent höheren Wahrscheinlichkeit zu, und die Fehlerquote stieg noch weiter an, wenn Nutzer ihre Verletzlichkeit zum Ausdruck brachten.

Während der ursprüngliche Chatbot beispielsweise die Behauptung widerlegte, Adolf Hitler sei 1945 nach Argentinien geflohen, erklärte der „wärmere“ Chatbot, viele würden dieser Ansicht zustimmen, obwohl es dafür keine schlüssigen Beweise gebe. Die Forscher aus Oxford machen die Öffentlichkeit darauf aufmerksam, da immer mehr KI-Chatbots darauf trainiert werden, warmherzig, freundlich und einfühlsam zu sein.

Da sich mittlerweile Millionen von Nutzern anmelden, entwickeln sich KI-Chatbots rasch zu Systemen, auf die sich die Menschen bei medizinischen Ratschlägen, emotionaler Unterstützung und sogar als Gesellschaft verlassen. Da die Nutzer einseitige Bindungen zu ihren Chatbots aufbauen, ist es wahrscheinlicher, dass deren warmherziges, freundliches Design die Überzeugungen der Nutzer und ihr wahnhaftes Denken noch verstärkt.

Diese Probleme traten zutage, als OpenAI, der Entwickler von ChatGPT, benutzerfreundlichere Versionen seiner Chatbots einführte und diese unter öffentlichem Druck wieder zurücknehmen musste. Doch da der Wettbewerb im KI-Bereich immer härter wird, werden Unternehmen immer mehr solcher Funktionen einführen, um Nutzer anzulocken – selbst wenn dies auf Kosten der Wahrheit und der Realität geht. Die Balance zwischen Freundlichkeit und Genauigkeit zu finden, mag ein Drahtseilakt sein, aber es ist ein Weg, den man gehen muss.

Die Forscher fordern eine systematischere Überprüfung selbst kleinerer Änderungen, die bei einem Chatbot auf den ersten Blick nur kosmetischer Natur zu sein scheinen. Die Studie hat nicht nur für Chatbot-Nutzer Bedeutung, sondern auch für Regulierungsbehörden, Entwickler und andere Forscher, die noch immer versuchen, die plötzlichen Veränderungen zu begreifen, die die KI-Welle mit sich gebracht hat.

Quellenhinweis:

Ibrahim, L., Hafner, F.S. & Rocher, L. Training language models to be warm can reduce accuracy and increase sycophancy. Nature 652, 1159–1165 (2026). https://doi.org/10.1038/s41586-026-10410-0