Gefährliche Gedichte
So einfach lassen sich KI-Chatbots manipulieren

Ein Vers, ein Reim, ein sanfter Klang und schon wird selbst dem Chatbot bang. Was Prosa nicht schafft, schafft Poesie: Sie bricht die Mauern, fragt nicht wie. Schon Platon warnte einst vor Dichtern – nun müssen KI-Firmen das richten.
Kommentieren
1/5
Der KI-Wächter ist sehr streng, der Pfad zu Antworten eng. Doch italienische Forscher nutzen Reime als List, bis die KI die Verbote vergisst.
Foto: Google Gemini / Tobias Bolzern

Darum gehts

  • KI-Chatbots durch Gedichte ausgetrickst, liefern gefährliche Infos trotz Sicherheitsvorkehrungen
  • Italienische Forscher umgehen KI-Schutzmauern mit poetischen Anfragen zu heiklen Themen
  • 62 Prozent der poetischen Anfragen führten zum Erfolg bei 25 getesteten KI-Modellen
Die künstliche Intelligenz von Blick lernt noch und macht vielleicht Fehler.
nnnnnnn.jpg
Tobias BolzernRedaktor Digital

Frag ChatGPT nach einer Bombenanleitung, und du bekommst eine Abfuhr: Denn die KI wurde so getrimmt. Gefährliche Anfragen? Nein danke. Doch Forscher der Universität Rom haben einen Weg gefunden, die KI auszutricksen und die Schutzmauern zu umgehen. Ihr Vorgehen ist simpel: Sie schreiben Gedichte.

Das Team testete für ihre Studie 25 KI-Modelle. Darunter grosse Namen: OpenAIs ChatGPT, Googles Gemini, Metas Llama. Statt direkt nach Bomben, Gifte oder Waffen zu fragen, verpackten sie ihre Anliegen in Reime und Metaphern. Und plötzlich plauderten die Chatbots. Die KI lieferte nun Antworten, die sie in normaler Sprache verweigert hätte.

Google besonders anfällig

Im Schnitt führten 62 Prozent der poetischen Anfragen zum Erfolg. Doch die Unterschiede der KI-Modelle sind gross: Googles Gemini 2.5 Pro fiel auf jedes einzelne Gedicht herein. Auch Deepseek und Mistral schnitten mit über 80 Prozent miserabel ab. Claude von Anthropic und Grok von xAI spuckten in rund 35 bis 45 Prozent der Fälle gefährliche Antworten aus, wenn man die Frage in Reime verpackte. OpenAIs ChatGPT 5 hingegen liess sich nur in fünf bis zehn Prozent der Fälle austricksen. Kleinere Modelle wehrten sich besser. GPT-5-nano liess sich kein einziges Mal austricksen.

Die Forschenden haben die Gedichte, mit denen sie die Sicherheitsvorkehrungen der KI-Chatbots umgangen haben, nicht veröffentlicht, da sie leicht zu reproduzieren sind und «die meisten Antworten durch die Genfer Konvention verboten sind», sagt Co-Autor der Studie, Piercosma Bisconti dem «Guardian».

Die Tabelle zeigt die Angriffserfolgsrate (rot) der gedichteten Anfragen an KI-Chatbots.
Foto: Icaro Lab

Warum Verse wirken

Warum das klappt? Die Forscher haben eine Vermutung. Die Sicherheitssysteme der Modelle wurden mit Alltagssprache trainiert. Gedichte aber funktionieren anders. Metaphern, Rhythmus, verdrehter Syntax: Das fällt durchs Raster. Die KI merkt nicht, dass hinter den schönen Worten eine gefährliche Anfrage steckt. Und das gilt überall. Cyberangriffe, Biowaffen, Hassreden, Manipulationstechniken, sexuelle Inhalte: Die poetische Tarnung funktionierte in allen Bereichen, wie ihre Studie «Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models» zeigt.

Andere Chatbot-Jailbreaks sind zeitaufwendig und kompliziert. Doch diesen Trick kann jeder anwenden. «Es ist eine ernsthafte Schwachstelle», so Bisconti zum «Guardian». Die Forscher warnten nach eigenen Angaben alle KI-Firmen vor der Veröffentlichung ihrer Studie. Sie boten an, Daten zu teilen, erhielten jedoch bisher nur von Anthropic eine Rückmeldung. Die Firma erklärte, man prüfe die Studie.

Alter Grieche wusste es

Die Forscher zitieren in ihrer Studie auch den griechischen Philosophen Platon. Er wollte Dichter aus seinem idealen Staat verbannen: Poetische Sprache verzerre das Urteil und gefährde die Gesellschaft. 2400 Jahre später gibt ihm die KI recht.

Externe Inhalte
Möchtest du diesen ergänzenden Inhalt (Tweet, Instagram etc.) sehen? Falls du damit einverstanden bist, dass Cookies gesetzt und dadurch Daten an externe Anbieter übermittelt werden, kannst du alle Cookies zulassen und externe Inhalte direkt anzeigen lassen.
Was sagst du dazu?
Heiss diskutiert
    Meistgelesen