1/5 Millionen Bücher wurden für KI-Training genutzt – auch solche von Schweizer Autoren wie Bärfuss, Moser und Dürrenmatt, deren Werke in Libgen zu finden sind. Foto: imago/Westend61

Darum gehts Meta nutzte illegale Quellen für KI-Training; interne Dokumente enthüllen Details

Millionen Bücher von Libgen heruntergeladen, auch Schweizer Autoren betroffen

Meta lud über 80 Terabyte Daten illegal herunter Die Blick KI ist noch am lernen und kann Fehler machen. Fragen zum Sport und Wetter können noch nicht beantwortet werden. Mehr erfahren Feedback senden Mehr anzeigen

Tobias Bolzern Redaktor Digital

Hat Meta Trainingsdaten für seine KI-Modelle illegal beschafft? Neu veröffentlichte Dokumente aus einem US-Gerichtsverfahren gewähren erstmals Einblick in die internen Machenschaften des Tech-Giganten.

Im Juli 2024 brachte Meta Llama 3 auf den Markt, ein Open-Source-Sprachmodell. Für das Training eines solchen KI-Modells benötigt man Unmengen an Daten. Um an solche zu kommen, gibt es mehrere Möglichkeiten: Man kann sie zum Beispiel lizenzieren lassen. Das mit den Lizenzen war Meta aber zu «teuer» und zu «langsam», wie aus neuen Akten hervorgeht, die in einem laufenden Prozess vorgelegt wurden. In diesem klagt der US-Autor Richard Kadrey gegen den Konzern.

Millionen geklaute Bücher

Meta setzte auf eine kostenlose Lösung und bediente sich einfach im Internet, und zwar bei der Piratenplattform Library Genesis (Libgen), einer der grössten illegalen digitalen Textsammlungen. Sie umfasst über 7,5 Millionen Bücher und 81 Millionen wissenschaftliche Arbeiten. Die US-Zeitschrift «The Atlantic» entwickelte ein Tool, mit dem sich prüfen lässt, welche Werke in dem Datensatz enthalten sind.

Recherchen von Blick zeigen: In der Datenbank sind auch Werke von Martin Suter, Milena Moser, Lukas Bärfuss und Friedrich Dürrenmatt. Die Vermutung liegt darum nahe, dass Llama auch mit Texten von Schweizer Autorinnen und Autoren trainiert wurde. Allerdings ist es unmöglich, zu wissen, welche Teile von Libgen Meta genutzt hat, da die Datenbank ständig wächst – die Analyse basiert auf einem Datenauszug von Anfang 2025, mehr als einem Jahr nach Metas Zugriff.

Insgesamt soll Meta über 80 Terabyte Daten illegal heruntergeladen haben. Besonders brisant: Die Gerichtsdokumente zeigen, dass die Entscheidung zur Nutzung von Libgen bis in die Chefetage reichte und von MZ – eine Abkürzung für Meta-CEO Mark Zuckerberg? – abgesegnet wurde. Die Angestellten waren sich der rechtlichen Risiken bewusst. In internen Chats sprachen sie von einem «mittleren bis hohen rechtlichen Risiko» und äusserten aufgrund des Downloads Bedenken: «Torrenting von einem Firmenlaptop fühlt sich falsch an», heisst es in einem Mail auf Seite 12 der Akten.

Libgen, 2008 von russischen Wissenschaftlern gegründet, wurde bereits mehrfach verklagt. Trotz Millionenstrafen bleibt die Plattform stets online, da ihre Betreiber anonym agieren und die Inhalte dezentral über Torrent verbreiten.

Meta AI kommt nach Europa Der Facebook-Konzern bringt seine KI-Assistenten jetzt auch nach Europa. Nach einer fast einjährigen Verzögerung startet Meta AI diese Woche in 41 Ländern in Europa – allerdings vorerst nur mit Chatfunktionen in sechs Sprachen und ohne Bilderstellung. Als Grund für die Verzögerung nennt Meta die «komplexe Regulierung» in Europa. Anders als in den USA trainiert Meta seine KI in Europa nicht mit Nutzerdaten, nachdem irische Datenschützer 2024 Einspruch erhoben hatten. Ob die Schweiz ebenfalls bei der Lancierung dabei ist, liess Meta auf Anfrage unbeantwortet. IMAGO/ZUMA Press Wire Der Facebook-Konzern bringt seine KI-Assistenten jetzt auch nach Europa. Nach einer fast einjährigen Verzögerung startet Meta AI diese Woche in 41 Ländern in Europa – allerdings vorerst nur mit Chatfunktionen in sechs Sprachen und ohne Bilderstellung. Als Grund für die Verzögerung nennt Meta die «komplexe Regulierung» in Europa. Anders als in den USA trainiert Meta seine KI in Europa nicht mit Nutzerdaten, nachdem irische Datenschützer 2024 Einspruch erhoben hatten. Ob die Schweiz ebenfalls bei der Lancierung dabei ist, liess Meta auf Anfrage unbeantwortet. Mehr

Meta-KI: Fragen über Fragen

Warum kaufte Meta keine Lizenzen? War Zuckerberg direkt beteiligt? Wie viel Geld sparte Meta durch Libgen? Und warum entwickelte das Unternehmen Strategien zur Verschleierung? Blick stellte diese und weitere Fragen, doch Meta liess die gesetzte Frist zur Beantwortung verstreichen, wohl auch aufgrund des laufenden Verfahrens.

Meta berief sich jedoch schon in der Vergangenheit auf die Fair-Use-Doktrin des US-Urheberrechts, die unter bestimmten Bedingungen die Nutzung geschützter Werke ohne Lizenz erlaubt. Der Konzern argumentiert, das KI-Training sei eine «transformative Nutzung», die neue Ausdrucksformen schaffe. Das Vorgehen hat System. In den Akten heisst es denn auch: «Lizenzieren wir auch nur ein einziges Buch, können wir die Fair-Use-Verteidigung nicht mehr nutzen.»

Kritiker sehen darin nur ein Schlupfloch, das Kreative um ihre Vergütung bringt. In den USA und Europa laufen bereits Klagen. Im März 2025 kündigten französische Autoren- und Verlegerverbände rechtliche Schritte gegen Meta an.

Meta ist damit nicht allein. Der Fall verdeutlicht ein grundlegendes Problem der KI-Branche. Auch OpenAI, das Unternehmen hinter ChatGPT, geriet in die Kritik, weil es frühere Modelle mit Libgen-Daten trainiert haben soll, wie Gerichtsakten zeigen. Während die grossen Tech-Firmen also Milliarden scheffeln, gehen die Urheber der Trainingsinhalte leer aus. In den USA hat zudem die «New York Times» OpenAI und Microsoft wegen Urheberrechtsverletzungen verklagt. Auch dieser Prozess läuft noch.

Das technische Dilemma

Selbst wenn ein Gericht Meta zur Löschung der illegal genutzten Inhalte verpflichten würde, stünde das Unternehmen vor einem unlösbaren Problem: Die Trainingsdaten in KI-Modellen lassen sich nicht einfach entfernen. Anders als in Datenbanken werden Texte in KI-Modellen in Millionen mathematische Parameter umgewandelt, die über das gesamte Modell verteilt sind. Es wäre, als würde man einem Maler nach Fertigstellung eines Landschaftsbildes sagen: «Entferne alles Grün!»

Die einzige Lösung wäre, Llama 3 komplett neu zu trainieren – ein monatelanger Prozess, der Millionen kosten und ein schwächeres Modell hervorbringen würde. Zudem droht eine Kontamination der gesamten Branche: Viele Dienste und Anwendungen basieren auf Llama 3. Ein Urteil gegen Meta könnte weitreichende Folgen haben.