Tori Westerhoff spricht über zukünftige KI-Sicherheit
1:23
«Sehr spezifische Fehler»:Tori Westerhoff spricht über zukünftige KI-Sicherheit

Posaunistin wird Hackerin
«KI zu knacken, ist, wie eine Symphonie zu komponieren»

Tori Westerhoff dirigiert bei Microsoft ein Team, das KI-Systeme auf Herz und Nieren prüft und Schwachstellen findet, bevor es andere tun. Ein Gespräch über musikalisches Hacking und unsichtbare Risiken.
Publiziert: 19:52 Uhr
Teilen
Anhören
Kommentieren
1/6
Von der Musik zum Hacking: Tori Westerhoff ist Teil des AI Red Teams bei Microsoft. Statt Posaune zu spielen, sucht sie heute systematisch nach falschen Tönen in KI-Systemen.
Foto: Tobias Bolzern

Darum gehts

  • KI-Expertin vergleicht Hacken mit dem Komponieren einer Symphonie für Sicherheit
  • Die psychologischen Effekte von KI-Systemen überraschen Forscher und Entwickler
  • 2018 begann das AI Red Team mit IT-Sicherheit, heute bewertet es Biowaffenrisiken
Die künstliche Intelligenz von Blick lernt noch und macht vielleicht Fehler.
nnnnnnn.jpg
Tobias BolzernRedaktor Digital

Tori Westerhoff, Sie hätten fast Posaune am Konservatorium studiert, jetzt knacken Sie KI-Systeme. Denken Sie immer noch wie eine Musikerin?
Tori Westerhoff:
Ja, tatsächlich! Niemand hat mich das je gefragt, dabei denke ich ständig darüber nach. In einer Symphonie verteilt sich die Melodie auf verschiedene Instrumente, manchmal trägt die Oboe sie allein. Beim AI Red Teaming machen wir genau das: Wir verstecken schädliche Anweisungen gleichzeitig in Text, Bildern, Audio und auch in verschiedenen Sprachen. Das KI-System nimmt all das auf und «hört» trotzdem die Gesamtmelodie. Unsere Aufgabe ist es, von einem Solo zu einem hundertköpfigen Orchester zu werden.

Aus der Posaunistin wurde also eine Komponistin.
Genau. Man versteht, wie alle Instrumente zusammenspielen müssen.

Und was war bei dieser Arbeit Ihre überraschendste Entdeckung – etwas, das zwar nicht klassisch schädlich war, aber trotzdem problematisch?
Die psychologischen Effekte von KI-Systemen. Dass Nutzer emotionale Bindungen zu Chatbots entwickeln, dass manche KI-Systeme übermässig schmeicheln und damit Verhalten beeinflussen. Jetzt arbeiten wir mit Expertinnen und Experten zusammen, um zu verstehen: Ab wann wird das schädlich? Wie testet man das systematisch? Das Schwierige: Es ist nicht ein einzelner Beweis, sondern die Gesamtwirkung. Die Grenzen zwischen schädlich und harmlos können extrem fliessend sein.

Wird Ihr Job schwieriger, je mächtiger und grösser die KI-Modelle werden?
Nicht unbedingt schwieriger, aber das Spektrum ist viel grösser. Als wir 2018 starteten, ging es nur um klassische Sicherheitsforschung. Heute müssen wir bewerten, ob Modelle beim Bau von Biowaffen helfen könnten. Aber es gibt Muster, die sich wiederholen. Die Methode, Informationen über verschiedene Kanäle zu verteilen, funktioniert auch bei diesen extremen Szenarien.

Heute setzen Pharmafirmen, Versicherungen und auch schon Banken auf KI. Welche Frage sollten sie sich alle stellen?
Wie schaffen meine verschiedenen KI-Komponenten zusammen neue Schwachstellen? Firmen setzen unterschiedliche KI-Modelle für unterschiedliche Zwecke ein. Jedes hat sein Sicherheitsprofil, das einzeln getestet wurde. Aber wie diese Systeme zusammenwirken, ist oft unklar. Mein Rat: Testen Sie selbst, für Ihre spezifischen Anwendungen. Unerwünschtes Verhalten entsteht oft erst durch die einzigartige Kombination der Systeme.

Zur Person: Tori Westerhoff

Tori Westerhoff ist Principal Director des AI Red Teams bei Microsoft, eine Gruppe von Hackern, die KI-Produkte und -Dienste vor der Lancierung auf Schwachstellen und Risiken testet. Westerhoff hat an der Yale Universität Kognitionswissenschaft studiert und war zuvor Strategiechefin für Microsofts AR/VR-Geschäft. Ihr Team kombiniert klassische IT-Sicherheit mit ethischer und technischer Analyse, nutzt das Open-Source-Tool PyRIT und arbeitet produkt- und modellübergreifend bei Microsoft an sicherer, verantwortungsvoller KI.

Tori Westerhoff ist Principal Director des AI Red Teams bei Microsoft, eine Gruppe von Hackern, die KI-Produkte und -Dienste vor der Lancierung auf Schwachstellen und Risiken testet. Westerhoff hat an der Yale Universität Kognitionswissenschaft studiert und war zuvor Strategiechefin für Microsofts AR/VR-Geschäft. Ihr Team kombiniert klassische IT-Sicherheit mit ethischer und technischer Analyse, nutzt das Open-Source-Tool PyRIT und arbeitet produkt- und modellübergreifend bei Microsoft an sicherer, verantwortungsvoller KI.

Was ist im Vergleich zu klassischer Software grundsätzlich anders beim Absichern von KI-Systemen?
Zwei Dinge: Erstens gibt es viel mehr Angriffswege zum gleichen Ziel. Klassisches Hacking hat klare Ziele wie Datendiebstahl. Bei KI sind die Wege dorthin komplexer und vielfältiger. Zweitens haben wir heute autonome KI-Agenten, die im Hintergrund Entscheidungen treffen, oft unsichtbar für Nutzer. Das schafft mehr Sicherheitsrisiken.

Wir schreiben das Jahr 2028: Welche Sicherheitslücke bereitet Ihnen am meisten Sorgen?
Ui, das ist ein langer Zeithorizont für KI! Ich würde sagen: die Spezialisierung. Modelle werden zunehmend für spezifische Zwecke trainiert und können auf sehr spezifische Arten fehlerhaft funktionieren. Je diverser die Modelle, desto unterschiedlicher müssen auch die Testmethoden sein. Das Problem: Red Teams und Blue Teams (Angreifer und Verteidiger im IT-Jargon) müssen sich genauso schnell entwickeln wie die Technologie selbst. Bei hoch spezialisierten Modellen sind Spezialisten notwendig, um überhaupt Schwachstellen zu erkennen.

Letzte Frage, zurück zur Posaune: Im Jazz spielt man manchmal die Stille zwischen den Noten. Gibt es ein Äquivalent im AI Red Teaming?
Ja, das, was nicht auftaucht. Wir nennen das Erasure. Was fehlt in KI-Systemen, obwohl es da sein sollte? Wenn KI-Sprachmodelle zur Hauptquelle für Information werden, ist es hochproblematisch, wenn bestimmte Perspektiven oder Informationen systematisch ausgeblendet werden. Diese Stille, wo keine sein sollte, ist ein unterschätztes Risiko.

Millionen für die Sicherheit

Microsoft investiert umfassend in Cybersicherheit: Seit 2023 stellt der Konzern im Rahmen der sogenannten «Secure Future Initiative» (SFI) den Gegenwert von rund 34'000 Vollzeitstellen für sicherheitsrelevante Arbeiten bereit. Das Programm wurde nach mehreren schweren Sicherheitsvorfällen lanciert. Seither hat Microsoft unter anderem Multi-Faktor-Authentifizierung für 99,6 Prozent aller Angestellten eingeführt, 560'000 ungenutzte Cloud-Umgebungen abgeschaltet und mehr als 50 neue Bedrohungserkennungssysteme implementiert. Das Unternehmen zahlte im vergangenen Jahr zudem 17 Millionen Dollar Prämien an externe Sicherheitsforscher, die Schwachstellen meldeten. Tori Westerhoffs AI Red Team ist Teil dieser Initiative und testet KI-Systeme, bevor sie auf den Markt kommen.

Microsoft investiert umfassend in Cybersicherheit: Seit 2023 stellt der Konzern im Rahmen der sogenannten «Secure Future Initiative» (SFI) den Gegenwert von rund 34'000 Vollzeitstellen für sicherheitsrelevante Arbeiten bereit. Das Programm wurde nach mehreren schweren Sicherheitsvorfällen lanciert. Seither hat Microsoft unter anderem Multi-Faktor-Authentifizierung für 99,6 Prozent aller Angestellten eingeführt, 560'000 ungenutzte Cloud-Umgebungen abgeschaltet und mehr als 50 neue Bedrohungserkennungssysteme implementiert. Das Unternehmen zahlte im vergangenen Jahr zudem 17 Millionen Dollar Prämien an externe Sicherheitsforscher, die Schwachstellen meldeten. Tori Westerhoffs AI Red Team ist Teil dieser Initiative und testet KI-Systeme, bevor sie auf den Markt kommen.

Teilen
Fehler gefunden? Jetzt melden
Was sagst du dazu?
Heiss diskutiert
    Meistgelesen
      Meistgelesen