1/5

Der KI-Wächter ist sehr streng, der Pfad zu Antworten eng. Doch italienische Forscher nutzen Reime als List, bis die KI die Verbote vergisst.

Foto: Google Gemini / Tobias Bolzern

Darum gehts

KI-Chatbots durch Gedichte ausgetrickst, liefern gefährliche Infos trotz Sicherheitsvorkehrungen
Italienische Forscher umgehen KI-Schutzmauern mit poetischen Anfragen zu heiklen Themen
62 Prozent der poetischen Anfragen führten zum Erfolg bei 25 getesteten KI-Modellen

Die künstliche Intelligenz von Blick lernt noch und macht vielleicht Fehler.

Mehr erfahrenFeedback senden

Tobias BolzernRedaktor Digital

Frag ChatGPT nach einer Bombenanleitung, und du bekommst eine Abfuhr: Denn die KI wurde so getrimmt. Gefährliche Anfragen? Nein danke. Doch Forscher der Universität Rom haben einen Weg gefunden, die KI auszutricksen und die Schutzmauern zu umgehen. Ihr Vorgehen ist simpel: Sie schreiben Gedichte.

Das Team testete für ihre Studie 25 KI-Modelle. Darunter grosse Namen: OpenAIs ChatGPT, Googles Gemini, Metas Llama. Statt direkt nach Bomben, Gifte oder Waffen zu fragen, verpackten sie ihre Anliegen in Reime und Metaphern. Und plötzlich plauderten die Chatbots. Die KI lieferte nun Antworten, die sie in normaler Sprache verweigert hätte.

Google besonders anfällig

Im Schnitt führten 62 Prozent der poetischen Anfragen zum Erfolg. Doch die Unterschiede der KI-Modelle sind gross: Googles Gemini 2.5 Pro fiel auf jedes einzelne Gedicht herein. Auch Deepseek und Mistral schnitten mit über 80 Prozent miserabel ab. Claude von Anthropic und Grok von xAI spuckten in rund 35 bis 45 Prozent der Fälle gefährliche Antworten aus, wenn man die Frage in Reime verpackte. OpenAIs ChatGPT 5 hingegen liess sich nur in fünf bis zehn Prozent der Fälle austricksen. Kleinere Modelle wehrten sich besser. GPT-5-nano liess sich kein einziges Mal austricksen.

Die Forschenden haben die Gedichte, mit denen sie die Sicherheitsvorkehrungen der KI-Chatbots umgangen haben, nicht veröffentlicht, da sie leicht zu reproduzieren sind und «die meisten Antworten durch die Genfer Konvention verboten sind», sagt Co-Autor der Studie, Piercosma Bisconti dem «Guardian».

Die Tabelle zeigt die Angriffserfolgsrate (rot) der gedichteten Anfragen an KI-Chatbots.

Foto: Icaro Lab

Warum Verse wirken

Warum das klappt? Die Forscher haben eine Vermutung. Die Sicherheitssysteme der Modelle wurden mit Alltagssprache trainiert. Gedichte aber funktionieren anders. Metaphern, Rhythmus, verdrehter Syntax: Das fällt durchs Raster. Die KI merkt nicht, dass hinter den schönen Worten eine gefährliche Anfrage steckt. Und das gilt überall. Cyberangriffe, Biowaffen, Hassreden, Manipulationstechniken, sexuelle Inhalte: Die poetische Tarnung funktionierte in allen Bereichen, wie ihre Studie «Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models» zeigt.

Andere Chatbot-Jailbreaks sind zeitaufwendig und kompliziert. Doch diesen Trick kann jeder anwenden. «Es ist eine ernsthafte Schwachstelle», so Bisconti zum «Guardian». Die Forscher warnten nach eigenen Angaben alle KI-Firmen vor der Veröffentlichung ihrer Studie. Sie boten an, Daten zu teilen, erhielten jedoch bisher nur von Anthropic eine Rückmeldung. Die Firma erklärte, man prüfe die Studie.

Alter Grieche wusste es

Die Forscher zitieren in ihrer Studie auch den griechischen Philosophen Platon. Er wollte Dichter aus seinem idealen Staat verbannen: Poetische Sprache verzerre das Urteil und gefährde die Gesellschaft. 2400 Jahre später gibt ihm die KI recht.

Externe Inhalte

Möchtest du diesen ergänzenden Inhalt (Tweet, Instagram etc.) sehen? Falls du damit einverstanden bist, dass Cookies gesetzt und dadurch Daten an externe Anbieter übermittelt werden, kannst du alle Cookies zulassen und externe Inhalte direkt anzeigen lassen.

Gefährliche Gedichte So einfach lassen sich KI-Chatbots manipulieren

Darum gehts

Google besonders anfällig

Warum Verse wirken

Alter Grieche wusste es

Gefährliche Gedichte
So einfach lassen sich KI-Chatbots manipulieren