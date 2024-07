1/4 Auch bei Ringier gab es Probleme mit Crowdstrike.

Christian Bischoff Head of Blick.ch

Blick: Lieber Marcus, heute Morgen haben wir um 6.30 Uhr das Pikett deiner Abteilung alarmiert, weil eines unserer Redaktionssysteme nicht funktionierte. Was lief bei euch nach diesem Alarm ab? Wie habt ihr das Problem identifiziert?

Marcus Dauck: Neben dem Alarm aus der Redaktion hat auch unser «Monitoring-System» uns darauf hingewiesen, dass einige Services nicht mehr erreichbar sind. Da wir für solche Vorfälle innerhalb der verschiedenen IT-Teams einen Chatkanal haben, wurde durch die Meldungen der Teams schnell klar, dass immer mehr Systeme ein Problem hatten. Somit kam dann der vordefinierte Prozess des «Major-Incidents» zum Tragen. Dort sind Kommunikationswege, Rollen und Verantwortlichkeiten geregelt. Alle in den Fall involvierten IT-Bereiche kommen dann in regelmässigen Calls zusammen und besprechen die neuesten Erkenntnisse und definieren die nächsten Schritte.

Als ihr das Problem umzingelt hattet, wo und wie fängt ihr an, zu «reparieren»?

Im Moment unserer ersten Abstimmungen war uns schnell klar, dass die Situation mit Crowdstrike zu tun hatte. Nun mussten wir uns überlegen, ob es Workarounds gibt, um das Problem zu lösen. Grundsätzlich ist bei uns klar definiert, welche Systeme am schnellsten wieder funktionieren müssen. Dort arbeiten wir dann daran, mit entsprechender Priorität eine Lösung zu finden. In einer solchen Situation ist allen klar, welche Prioritäten gelten. Die Redaktionssysteme und zentralen Systeme, die alle Mitarbeitenden betreffen, stehen hier natürlich ganz oben. Da auch Arbeitsplätze mit Windows-Laptops betroffen waren, wurde dann in mehreren Teams parallel an einer Lösung gearbeitet.

Wann habt ihr selbst gemerkt, dass der Crowdstrike-Fail globale Auswirkungen hatte?

Bereits im ersten Meeting konnten wir durch unser Monitoring weltweiter IT-Nachrichten informieren, dass dies wohl ein wesentlich grösseres Problem sein könnte.

Bei uns auf der Redaktion lief nach zwei Stunden das betroffene System wieder. Wie lange musstet ihr noch weiterflicken?

Die Reparaturen aller produktionsrelevanten Serversysteme waren nach rund drei Stunden erledigt. In Teilen laufen die Arbeiten noch für einige Arbeitsplätze.

Warum hatten IT-Abteilungen anderer Firmen oder Institutionen viel länger, bis es wieder funktionierte?

Darüber kann ich nicht wirklich eine fundierte Aussage treffen, ohne das Setup der anderen Firmen zu kennen. Grundsätzlich sieht man, dass es wesentlich schwieriger wird, sobald eine grosse Anzahl von Endgeräten betroffen ist, die man nicht mehr direkt erreichen kann.

Ein einzelnes, kleineres Software-Update kann riesige Konsequenzen nach sich ziehen – was sagst du als Profi dazu?

In unserer Welt, die immer vernetzter und abhängiger ist von einzelnen Serviceanbietern, müssen wir uns darauf einstellen, dass es auch immer wieder zu Problemen kommen kann. Aus diesem Grund ist es wichtig, dass sich alle Beteiligten bewusst sind, dass aus Fehlern gelernt wird und genügend Zeit für Test und Qualitätsprüfungen aufgewendet werden. Es ist uns allen schon passiert, dass ein Software-Update nicht klappte. Darum ist es wichtig, dass man einen Backup-Plan hat. Dies gilt für den privaten Laptop oder das Smartphone genauso wie im grossen Stil für Firmen.

