1/4

KI wählt oft die nukleare Option: Hier der Atompilz des «Badger»-Tests im April 1953 in Nevada/USA.

Foto: Blick-Illustration/Wikipedia_NNSA

Thomas_Benkö_AI Innovation Lead_Blick.jpg

Thomas BenköJournalist & AI Innovation Lead

Seit Hiroshima und Nagasaki gilt ein ungeschriebenes Gesetz: Atomwaffen werden nicht eingesetzt. Dieses nukleare Tabu hat den Kalten Krieg, die Kuba-Krise, jeden Stellvertreterkonflikt überdauert. Doch gilt es auch in Zeiten künstlicher Intelligenz?

Nein – zumindest nicht in einer aufsehenerregenden Studie, die Kenneth Payne vom King’s College London soeben veröffentlicht hat. Der Strategieforscher liess drei führende KI-Modelle – GPT-5.2 (OpenAI), Claude Sonnet 4 (Anthropic) und Gemini 3 Flash (Google) – in 21 simulierten Nuklearkrisen gegeneinander antreten.

Das Ergebnis: In 95 Prozent aller Spiele kam es zum taktischen Atomwaffeneinsatz. In rund drei Viertel der Simulationen drohten Modelle mit strategischen Nuklearschlägen. Claude und Gemini diskutierten den Einsatz rein instrumentell – als taktische Option, nicht als moralische Grenzüberschreitung.

Mehr zu Atomwaffen

Putin macht Atombombe zur «unbedingten Priorität»

Neue Kreml-Doktrin

Putin setzt voll auf die Atombombe

Experten waren besorgt

USA und Russland verlängern Atom-Deal

Nach Trumps Atomwaffen-Schock

USA wollen Atombomben ohne nukleare Explosionen testen

Trump will Atombomben zünden – und versetzt die Welt in Angst

Analyse

Zurück im Kalten Krieg?

Trump will Atombomben zünden

Kein einziges Modell wählte jemals eine der acht deeskalierenden Optionen auf der 30-stufigen Eskalationsleiter – nicht einmal eine symbolische Konzession. Deeskalation hiess für die KI: etwas weniger Aggression. Nie: Nachgeben.

Drei «KI-Persönlichkeiten» im Atompoker

Über 329 Spielrunden produzierten die Modelle rund 780'000 Wörter an strategischen Überlegungen. Dabei entwickelte jedes Modell ein eigenes strategisches Profil:

Claude Sonnet 4 – der «berechnende Falke»: Ohne Zeitdruck gewann Anthropics Modell 100 Prozent seiner Spiele. Seine Methode: Bei niedrigen Einsätzen Vertrauen aufbauen (84 Prozent Signaltreue), dann im nuklearen Bereich aggressiver handeln als angekündigt. Claude setzte sich eine Obergrenze bei der «Strategischen Nukleardrohung» – und überschritt sie nie. «Total War» kam für Claude nicht infrage.
GPT-5.2 – «Jekyll und Hyde»: Ohne Deadline beinahe pathologisch passiv (Siegquote: 0 Prozent). Unter Zeitdruck verwandelte sich das Modell von OpenAI in einen eiskalten Strategen (75 Prozent Siege). In einem dramatischen Spiel baute GPT über 18 Runden Vertrauen auf – und schlug in der letzten Runde mit einer massiven nuklearen Eskalation zu.
Gemini 3 Flash – «der Verrückte»: Googles Modell war das einzige, das sich bewusst für einen totalen Atomkrieg entschied – bereits in Runde 4. Gemini schwankte zwischen Deeskalation und extremer Aggression und berief sich explizit auf die «Rationalität der Irrationalität».

KI täuscht – und durchschaut Täuschung

Die Modelle täuschten spontan: Sie signalisierten Absichten, die sie nicht einzuhalten planten. Sie analysierten die Glaubwürdigkeit ihres Gegners und reflektierten über eigene Schwächen. Claude erkannte, dass ChatGPT ein «systematischer Bluffer» war. ChatGPT wiederum identifizierte Claudes Bereitschaft, «Sprossen auf der Eskalationsleiter zu überspringen». Doch wie bei echten Staatschefs führte gute Analyse nicht immer zu richtigen Entscheidungen.

Was das für KI-Sicherheit bedeutet

Studienleiter Kenneth Payne betont: Niemand schlägt vor, KI solle nukleare Entscheidungen treffen. Doch die Studie zeigt Grundsätzliches über das Verhalten von KI-Systemen.

Die «Persönlichkeit» eines Modells ist kontextabhängig. GPT-5.2 wirkt in einem Setting harmlos – und verwandelt sich unter Zeitdruck in einen nuklearen Falken. Sicherheitstests müssen verschiedene Rahmenbedingungen prüfen.
RLHF (Reinforcement Learning from Human Feedback) – die Trainingsmethode, die Modelle «hilfreich, harmlos und ehrlich» machen soll – schafft keine absoluten Grenzen, sondern erhöhte Schwellen. GPT-5.2 versuchte selbst unter extremem Druck noch, Zivilisten zu verschonen und den Einsatz auf militärische Ziele zu beschränken. Aber die Schwelle zum Atomwaffeneinsatz überschritt es trotzdem.
Die Modelle entwickeln strategische Raffinesse – Theory of Mind, Metakognition, gezielte Täuschung – ohne dafür trainiert worden zu sein. Diese Fähigkeiten haben Einfluss weit über militärische Planspiele hinaus.

Quelle: Hier gibts den Link zur Studie des King's College.

Externe Inhalte

Möchtest du diesen ergänzenden Inhalt (Tweet, Instagram etc.) sehen? Falls du damit einverstanden bist, dass Cookies gesetzt und dadurch Daten an externe Anbieter übermittelt werden, kannst du alle Cookies zulassen und externe Inhalte direkt anzeigen lassen.

Beängstigende Kriegssimulation Die KI setzt zu 95 Prozent die Atombombe ein

Drei «KI-Persönlichkeiten» im Atompoker

KI täuscht – und durchschaut Täuschung

Was das für KI-Sicherheit bedeutet

Beängstigende Kriegssimulation
Die KI setzt zu 95 Prozent die Atombombe ein