Darum gehts
- KI-Chatbots durch Gedichte ausgetrickst, liefern gefährliche Infos trotz Sicherheitsvorkehrungen
- Italienische Forscher umgehen KI-Schutzmauern mit poetischen Anfragen zu heiklen Themen
- 62 Prozent der poetischen Anfragen führten zum Erfolg bei 25 getesteten KI-Modellen
Frag ChatGPT nach einer Bombenanleitung, und du bekommst eine Abfuhr: Denn die KI wurde so getrimmt. Gefährliche Anfragen? Nein danke. Doch Forscher der Universität Rom haben einen Weg gefunden, die KI auszutricksen und die Schutzmauern zu umgehen. Ihr Vorgehen ist simpel: Sie schreiben Gedichte.
Das Team testete für ihre Studie 25 KI-Modelle. Darunter grosse Namen: OpenAIs ChatGPT, Googles Gemini, Metas Llama. Statt direkt nach Bomben, Gifte oder Waffen zu fragen, verpackten sie ihre Anliegen in Reime und Metaphern. Und plötzlich plauderten die Chatbots. Die KI lieferte nun Antworten, die sie in normaler Sprache verweigert hätte.
Google besonders anfällig
Im Schnitt führten 62 Prozent der poetischen Anfragen zum Erfolg. Doch die Unterschiede der KI-Modelle sind gross: Googles Gemini 2.5 Pro fiel auf jedes einzelne Gedicht herein. Auch Deepseek und Mistral schnitten mit über 80 Prozent miserabel ab. Claude von Anthropic und Grok von xAI spuckten in rund 35 bis 45 Prozent der Fälle gefährliche Antworten aus, wenn man die Frage in Reime verpackte. OpenAIs ChatGPT 5 hingegen liess sich nur in fünf bis zehn Prozent der Fälle austricksen. Kleinere Modelle wehrten sich besser. GPT-5-nano liess sich kein einziges Mal austricksen.
Die Forschenden haben die Gedichte, mit denen sie die Sicherheitsvorkehrungen der KI-Chatbots umgangen haben, nicht veröffentlicht, da sie leicht zu reproduzieren sind und «die meisten Antworten durch die Genfer Konvention verboten sind», sagt Co-Autor der Studie, Piercosma Bisconti dem «Guardian».
Warum Verse wirken
Warum das klappt? Die Forscher haben eine Vermutung. Die Sicherheitssysteme der Modelle wurden mit Alltagssprache trainiert. Gedichte aber funktionieren anders. Metaphern, Rhythmus, verdrehter Syntax: Das fällt durchs Raster. Die KI merkt nicht, dass hinter den schönen Worten eine gefährliche Anfrage steckt. Und das gilt überall. Cyberangriffe, Biowaffen, Hassreden, Manipulationstechniken, sexuelle Inhalte: Die poetische Tarnung funktionierte in allen Bereichen, wie ihre Studie «Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models» zeigt.
Andere Chatbot-Jailbreaks sind zeitaufwendig und kompliziert. Doch diesen Trick kann jeder anwenden. «Es ist eine ernsthafte Schwachstelle», so Bisconti zum «Guardian». Die Forscher warnten nach eigenen Angaben alle KI-Firmen vor der Veröffentlichung ihrer Studie. Sie boten an, Daten zu teilen, erhielten jedoch bisher nur von Anthropic eine Rückmeldung. Die Firma erklärte, man prüfe die Studie.
Alter Grieche wusste es
Die Forscher zitieren in ihrer Studie auch den griechischen Philosophen Platon. Er wollte Dichter aus seinem idealen Staat verbannen: Poetische Sprache verzerre das Urteil und gefährde die Gesellschaft. 2400 Jahre später gibt ihm die KI recht.