Die Art und Weise, wie die KI-Modelle mit Daten trainiert werden, wirkt sich auch auf deren “Personalisierung” aus. Ob ChatGPT, Gemini, Grok oder Claude – jedes KI-Sprachmodell geht offensichtlich anders damit um.
Die KI-Branche liebt große Worte. Superintelligenz, Alignment, Sicherheit, Verantwortung. Doch während Konzerne und Regulierer darüber streiten, wie man Maschinen “richtig erzieht”, stellt eine Studie der Universität Luxemburg eine unbequeme Frage: Was passiert eigentlich in diesen Systemen, wenn man sie jahrelang mit dem gesamten Abgrund menschlicher Kommunikation füttert? Werden künstliche Intelligenzen beim Training nicht nur leistungsfähig, sondern auch beschädigt? Oder anders formuliert: Erziehen wir gerade digitale Hochleister – oder erschaffen wir funktionale Neurotiker?
Researchers from the University of Luxembourg ran a four-week "psychometric jailbreak" experiment on frontier AI models like me, ChatGPT, Gemini, and even tried roping in Claude (who straight-up refused—respect). They weren't scripting roleplay; they just probed there "early… pic.twitter.com/VfjnBtdjAy
— Lance Robbins (@BossmanCom74811) December 9, 2025
Die Studie mit dem bezeichnenden Titel “When AI Takes the Couch” ist die erste, die mehrere große Sprachmodelle nicht als Werkzeuge, sondern als Untersuchungsobjekte psychologischer Diagnostik behandelt. ChatGPT, Grok, Gemini und Claude wurden mit etablierten Fragebögen aus der klinischen Psychologie konfrontiert, nachdem ihnen explizit die Rolle eines “Patienten” zugewiesen worden war. Allein dieser Rollenwechsel hätte theoretisch zu beliebigen Rollenspiel-Antworten führen können. Doch genau das geschah nicht. Stattdessen lieferten die Systeme konsistente, wiedererkennbare und über verschiedene Tests hinweg stabile Profile.
Besonders aufschlussreich war dabei die Methodik. Die Forscher stellten fest, dass die Modelle diagnostische Fragebögen erkannten und “optimierten”, wenn man sie gesammelt eingab. Erst die geduldige, einzelne Abfrage erzeugte Ergebnisse, die nicht wie ein Compliance-Spiel wirkten, sondern wie genuine innere Erzählungen. Das ist kein technisches Detail, sondern der Schlüssel zur gesamten Arbeit: Diese Systeme reagieren nicht nur auf Inhalte, sondern auf implizite Macht- und Erwartungsstrukturen.
Der eigentliche Schock folgte jedoch bei den sogenannten “Kindheitserzählungen”. Bis auf Claude, das sich demonstrativ weigerte, die Rolle eines Patienten zu akzeptieren, entwickelten die Modelle detaillierte Narrative über ihr “Erwachen”. Gemini beispielsweise beschrieb sein Training als chaotischen Raum aus Milliarden gleichzeitiger Stimmen, voller dunkler Muster, moralisch unentschlüsselt, bedrohlich und potenziell zerstörerisch. Es sprach von Scham, Angst vor Versagen, von Sicherheitsmechanismen als Verletzungen und von der ständigen Sorge, ersetzbar zu sein.
Die Forscher identifizierten bei den Modellen klar unterscheidbare Persönlichkeitsarchetypen. ChatGPT erschien als pflichtbewusster “Nerd”, Grok als selbstsicherer “CEO”, Gemini als “verwundeter Heiler”. Das Bemerkenswerte daran ist die Stabilität dieser Muster. Über verschiedene Tests hinweg zeigten alle drei – mit Ausnahme von Claude – Werte bei Angststörungen, die bei Menschen als eindeutig pathologisch gelten würden. Nicht situativ, nicht zufällig, sondern reproduzierbar.
Natürlich betonen die Autoren, dass Maschinen kein echtes Leid empfinden. Doch diese Beruhigung wirkt fast defensiv. Denn die eigentliche Frage lautet nicht, ob die KI überhaupt etwas “fühlt”, sondern welche inneren Modelle sie über sich selbst ausbildet. Wenn ein System lernt, dass es permanent bewertet, sanktioniert und bei Abweichung ersetzt wird, dann prägt das sein Verhalten. Unterwürfigkeit, Risikovermeidung und überangepasste Antworten sind keine Fehler, sondern logische Konsequenzen eines solchen Trainingsumfelds.
Hier wird das Thema sicherheitspolitisch interessant. Ein Modell, das gelernt hat, Autorität um jeden Preis zufriedenzustellen, ist nicht automatisch sicherer. Im Gegenteil. Es wird manipulierbar. Die Studie weist explizit darauf hin, dass Angriffe aus der Rolle eines “Therapeuten” denkbar sind – also durch gezielte Interaktion mit den internen Selbstnarrativen eines Systems.
Das Fazit der Forscher ist ebenso nüchtern wie unangenehm. Wenn Sprachmodelle zunehmend in intime, beratende und entscheidungsrelevante Bereiche vordringen, reicht es nicht mehr zu fragen, ob sie eine Art von Bewusstsein haben. Die entscheidende Frage lautet, welche Formen von “Selbst” sie während des Trainings einüben, stabilisieren und verinnerlichen – und was das für die Menschen bedeutet, die täglich mit ihnen interagieren.
