Grundsatzentscheidung des LG Hamburg zur urheberrechtlichen Zulässigkeit von Data Scraping für das Training von KI-Modellen
Neben einigen großen Verfahren in den USA sind nun auch in Deutschland erste Fälle vor Gericht anhängig, die sich mit interessanten urheberrechtlichen Fragen sowohl auf der Input- als auch auf der Output-Seite von KI-Modellen befassen. Das Landgericht Hamburg hat sich nun als erstes deutsches Gericht mit der urheberrechtlichen Zulässigkeit der automatisierten Sammlung und Nutzung urheberrechtlich geschützter Werke zum Zwecke des KI-Trainings befasst. In unserem Blog besprechen wir das Urteil vom 27. September 2024 (Az. 310 O 227/23), ordnen seine Bedeutung für Sie ein und geben sowohl Urhebern als auch KI-Entwicklern Hinweise für die Praxis.
1. Technischer Hintergrund
Künstliche Intelligenz (KI) hat in den vergangenen Jahren erhebliche Fortschritte erzielt und findet Eingang in immer mehr Bereiche des Alltags und des Berufslebens. Besonders von sich Reden machen große Sprachmodelle (LLMs) wie beispielsweise ChatGPT oder Bild-Generatoren wie Midjourney.
Die Leistungsfähigkeit dieser KI-Systeme hängt maßgeblich von der Qualität und Quantität der Daten ab, mit denen sie trainiert werden. Eine gängige Methode zur Sammlung dieser großen Datenmengen ist das sogenannte „Data-Scraping“. Bei diesem automatisierten Prozess durchsuchen Softwareprogramme (sog. „Bots“ oder „Crawler“) das Internet systematisch und extrahieren Informationen von Webseiten, insbesondere Texte, Bilder, Videos, Programmcodes oder andere digitale Inhalte. Der Prozess läuft dabei folgendermaßen ab: Ein Crawler besucht eine Webseite und liest deren Inhalt aus. Im Anschluss folgt er den auf der Webseite vorhandenen Links zu weiteren Seiten und wiederholt den Vorgang. Auf diese Weise können innerhalb kurzer Zeit große Datenmengen automatisiert gesammelt werden. Die gesammelten Daten werden anschließend auf Datenservern der KI-Anbieter gespeichert, für das Training der KI-Modelle verwendet und anschließend wieder gelöscht.
Data-Scraping ist deshalb besonders attraktiv, weil das freie Internet eine extrem vielfältige und umfangreiche Datenbasis bereithält, die sekündlich weiter anwächst und fortlaufend aktualisiert wird – und dennoch kostenlos zugänglich ist. Zugleich wirft die Methode zahlreiche rechtliche Fragen auf: Denn auch wenn viele Informationen im Internet frei zugänglich sein mögen, gerät ihre Extraktion und Nutzung zum Training von KI-Modellen ohne Zustimmung oder gar Lizenz in einen offensichtlichen Konflikt mit dem Urheberrecht – denn die freie Abrufbarkeit von Inhalten steht ihrem urheberrechtlichen Schutz nicht entgegen.
2. Entscheidung des LG Hamburg
In einem aktuellen Verfahren hatte das Landgericht Hamburg nun als erstes deutsches Gericht Gelegenheit, sich mit den urheberrechtlichen Implikationen solcher Datensammlungen zum KI-Training zu befassen. Das Urteil betrifft also die Input-Seite von KI-Modellen, nicht die Output-Seite (etwa die Frage der urheberrechtlichen Schutzfähigkeit KI-generierter Inhalte).
Sachverhalt
Der Kläger ist ein Produzent und Fotograf von Stockfotos, die er über verschiedene Stockfoto-Plattformen vertreibt. Beklagter ist ein gemeinnütziger Verein mit dem selbsterklärten Ziel, offene Datensätze, Werkzeuge und Modelle zur Verfügung zu stellen und so die Forschung im Bereich des maschinellen Lernens zu fördern. Einer dieser Datensätze beinhaltet ca. 5,8 Milliarden Text- und Bildpaare, die von dem Beklagten durch automatisiertes Data-Scraping aus öffentlich zugänglichen Quellen im Internet gesammelt wurden. Der Datensatz wurde von dem Beklagten anschließend zum Training von KI-Modellen zur Verfügung gestellt.
Der Kläger stellte fest, dass eines seiner Bilder ohne seine Zustimmung in dem Datensatz verwendet wurde. Konkret handelte es sich um ein Bild, das ursprünglich auf einer Plattform für Stockfotos und -videos hochgeladen und in niedriger Auflösung sowie mit einem Wasserzeichen versehen in den Datensatz übernommen wurde. In den Nutzungsbedingungen der Plattform hieß es, dass das automatisierte Herunterladen und die Nutzung der Inhalte durch Bots oder ähnliche Programme untersagt sei.
In der Verwendung sah der Kläger eine Verletzung seines Urheberrechts und verlangte von dem Beklagten die Entfernung seines Bildes aus dem Trainingssatz sowie Auskunft über den Umfang der Verwendung seines Werkes.
Rechtliche Würdigung durch das Gericht
Das Gericht weist die Klage ab. Nachdem es zunächst wenig überraschend eine Vervielfältigung i.S.v. § 16 UrhG bejaht, die grundsätzlich nur mit Zustimmung des Urhebers vorgenommen werden darf, wendet es sich der rechtlichen Kernfrage des Falles zu: Der Prüfung der „Text- und Data-Mining“-Schranken („TDM-Schranken“).
Das Gericht äußert sich zunächst ausführlich zu § 44b UrhG und stellt unter Verweis auf den Wortlaut der Vorschrift fest, dass automatisiertes Data Scraping grundsätzlich als Text- und Data Mining im Sinne der Vorschrift zu qualifizieren sei, da die Vervielfältigung der Gewinnung von Informationen über „Korrelationen“ diene. Eine teleologische Reduktion der Vorschrift, wie sie im Schrifttum teilweise vorgeschlagen wird (s.u.), lehnt das Gericht ab.
Obiter dicens äußert sich das Gericht sodann zu der in § 44b Abs. 3 UrhG geregelten Rückausnahme, wonach Text- und Data-Mining unzulässig ist, wenn der Rechteinhaber einen Nutzungsvorbehalt erklärt hat, der bei im Internet zugänglichen Daten „maschinenlesbar“ sein muss. Der Kläger verwies insoweit auf das in den Nutzungsbedingungen der Plattform enthaltene Verbot des automatisierten Herunterladens und der Nutzung dieser Inhalte durch Bots oder ähnliche Programme (s.o.). Das Gericht lässt hierzu zunächst die Tendenz erkennen, dass sich der Kläger auf diesen von einem Dritten erklärten Nutzungsvorbehalt berufen könne und dieser auch hinreichend klar formuliert sei. Zudem spreche einiges dafür, dass dieser Nutzungsvorbehalt auch den Anforderungen an die „Maschinenlesbarkeit“ genüge. Es sei ein Wertungswiderspruch, KI-Entwicklern über die Schrankenregelung des § 44b UrhG die Entwicklung immer leistungsfähigerer textverstehender KI-Modelle zu ermöglichen, ihnen andererseits aber die Anwendung bereits bestehender KI-Modelle im Rahmen der Rückausnahme nicht zuzumuten. Entscheidend sei damit letztlich, ob zum Zeitpunkt der Vervielfältigungshandlung eine Technologie zur Verfügung stand, die den Inhalt des Nutzungsvorbehalts hätte erfassen können. Im Ergebnis lässt das Gericht jedoch offen, ob die Schrankenschranke eingreift.
Denn der besonderen Konstellation des Falles ist es geschuldet, dass das Gericht die speziellere TDM-Schranke in § 60d UrhG heranziehen konnte. Danach sind Vervielfältigungen für Text- und Data-Mining für Zwecke der wissenschaftlichen Forschung zulässig, sofern sie von nicht-kommerziellen Forschungsorganisationen vorgenommen werden. Eine Rückausnahme hiervon gilt nach § 60d Abs. 2 S. 3 UrhG, wenn ein privates Unternehmen auf die Forschungsorganisation einen bestimmenden Einfluss ausübt und bevorzugten Zugang zu den Ergebnissen der wissenschaftlichen Forschung hat. Das Gericht ging davon aus, dass der Beklagte eine Forschungsorganisation im Sinne der Vorschrift ist. Für das Eingreifen dieser Rückausnahme treffe den Kläger die Beweislast, der er im vorliegenden Fall nicht nachgekommen sei.
Das Urteil ist nicht rechtskräftig. Dem Vernehmen nach sind die Parteien bestrebt, die streitentscheidenden Fragen durch die Instanzen zu tragen und höchstrichterlich klären zu lassen. Da § 44a UrhG und § 60d beide auf Unionsrecht beruhen, ist damit zu rechnen, dass dieser (oder ein vergleichbarer Fall) letztlich vom EuGH entschieden werden muss – bis dahin wird allerdings noch einige Zeit vergehen. Man darf gespannt sein, wie andere deutsche und europäische Gerichte derartige Fälle bis dahin entscheiden werden.
3. Kommentar und Einordnung des Urteils
Die Entscheidung ist, nicht zuletzt durch ihre umfassenden Ausführungen auch zu § 44b UrhG, richtungsweisend und für Technologieunternehmen und Urheber gleichermaßen von Bedeutung. Auch wenn sie sich konkret auf die Nutzung von Bildern bezieht, gilt für Texte, Programmcode, Videos oder Musik nichts anderes – die rechtlichen Fragen sind dieselben. Da §§ 44b, 60d UrhG unionsrechtlich determiniert sind, sollte die Entscheidung auch in anderen Mitgliedstaaten zur Kenntnis genommen werden.
Die Anwendbarkeit der TDM-Schranken auf das automatisierte Data Scraping wurde auch bislang in der (deutschen) rechtswissenschaftlichen Literatur ganz überwiegend bejaht, jüngst aber in einer vielbeachteten und lesenswerten Studie von Dornis/Stober im Auftrag der Initiative Urheberrecht verneint. Während der Wortlaut des § 44b UrhG zwar in der Tat für die Anwendbarkeit der TDM-Schranke auf das KI-Training spricht, stößt das Ergebnis rechtspolitisch durchaus auf Bedenken. Die Vorschrift beruht nämlich auf Art. 4 der DSM-Richtlinie aus dem Jahr 2019 – damals fand KI-Training zwar zweifellos bereits statt; der Gesetzgeber dürfte aber kaum vor Augen gehabt haben, dessen urheberrechtliche Zulässigkeit zu regeln. Darüber hinaus gründet sich die bei Einführung der Vorschrift ausdrücklich gewollte Vergütungsfreiheit letztlich darauf, dass die im Wege des Text- und Data-Mining gewonnenen Erkenntnisse nicht in Konkurrenz zu den Daten bzw. Produkten treten, die ausgelesen werden. Dies ist beim Training generativer KI aber gerade anders: Wie der entschiedene Fall zeigt, werden die KI-Modelle mit (urheberrechtlich geschütztem) Bildmaterial trainiert, um letzten Endes selbst Bilder zu generieren – es entsteht eine Konkurrenzsituation dem Urheber der ausgelesenen Werkes. Anders gewendet: Der Rechteinhaber erhält keine Vergütung für die Nutzung seines Werkes und muss in der Folge auch noch hinnehmen, dass die mit seinem Werk trainierte KI ihm Konkurrenz macht. Ob es wirklich gewollt ist, sich urheberrechtlich geschützter Werke (vergütungs-) frei bedienen zu können, um eine generative KI zu trainieren, die diese Werke ersetzen kann, ist vor diesem Hintergrund durchaus fraglich. Die weiteren Diskussionen hierzu werden, ebenso wie die gesetzgeberischen Aktivitäten und die Bemühungen von Verwertungsgesellschaften um Lizenzierungsmodelle, zu beobachten sein.
Überraschend – weil entgegen der bislang vorherrschenden Auffassung im Schrifttum – ist die obiter dicens geäußerte Tendenz des Gerichts zur vermeintlichen Kernfrage des Falles, dass Nutzungsvorbehalt i.S.v. § 44b Abs. 3 UrhG wirksam erklärt wurde. Es ist sehr fraglich, ob ein in natürlicher Sprache formulierter Nutzungsvorbehalt tatsächlich „maschinenlesbar“ oder eben nur „menschenlesbar“ ist. Dies gilt auch dann, wenn man die zweifellos beeindruckenden Texterkennungsfähigkeiten großer Sprachmodelle berücksichtigt. Hielte man einen Nutzungsvorbehalt in natürlicher Sprache für ausreichend, stellten sich zahlreiche Folgefragen, die von den Anforderungen an die konkrete Formulierung und den Folgen unklarer Formulierungen über die relevanten Sprachen bis hin zur Platzierung auf der Website reichen. „Maschinenlesbar“ dürfte indes richtigerweise nur eine Anweisung an den Crawler sein, die dieser ohne Weiteres als solche identifizieren und eindeutig verstehen kann. Verbreitet – zugegebenermaßen aber keineswegs jedermann bekannt – ist insoweit der Robots Exclusion Standard, bei dem eine einfache Textdatei namens robots.txt im Stammverzeichnis der Webseite hinterlegt wird, die bestimmten Bots und Crawlern die Auslesung der Webseite ganz oder teilweise untersagen kann, dabei aber freilich auch auf die „Mitarbeit“ des Bots angewiesen sind.
4. Praxishinweis
Für die Praxis wirft das Urteil sowohl Licht als auch Schatten. Aus der Sicht von KI-Entwicklern ist zunächst erfreulich, dass das Data Scraping grundsätzlich unter die TDM-Schranke fällt. Dennoch verbleibt ein gehöriges Maß an rechtlicher Unsicherheit, da die Entscheidung die – nur in § 44b Abs. 3 UrhG enthaltene – Rückausnahme des Nutzungsvorbehalts und insbesondere die Anforderungen an die „Maschinenlesbarkeit“ kaum konturiert – im Gegenteil. Dies gilt erst recht, wenn man die Verpflichtung von KI-Entwicklern berücksichtigt, ihre Systeme so zu gestalten, dass sie maschinenlesbare Widersprüche zuverlässig erkennen und beachten (vgl. Art. 53 Abs. 1 lit. c KI-Verordnung).
Urhebern ist demgegenüber zu raten, selbst proaktive Maßnahmen zu ergreifen und bei der Auswahl der Webseiten, auf denen sie ihre Werke einstellen, besondere Vorsicht walten zu lassen, wenn sie ihre online geteilten Werke vor Data Scraping und damit mittelbar vor der Nutzung für das KI-Training schützen wollen. Spätestens wenn sie Werke an Kunden lizenzieren, die diese ihrerseits im Internet nutzen, stoßen Urheber freilich auf praktische Schwierigkeiten, denn dann müssen die Lizenznehmer verpflichtet werden, auf den betroffenen Webseiten einen wirksamen, maschinenlesbaren Nutzungsvorbehalt aufzunehmen. Sofern sich dies überhaupt praktisch durchsetzen lässt, ist wegen der bestehenden Unsicherheiten bei Nutzungsvorbehalten in natürlicher Sprache bis auf Weiteres zur Nutzung der robots.txt zu raten.
Das könnte Sie ebenfalls interessieren
Marken sind wertvolle Vermögenswerte, die im Laufe der Zeit gepflegt und modernisiert werden müssen, um relevant zu bleiben. Die Modernisierung einer Marke ist jedoch ein Balanceakt. Einerseits muss die Marke aktualisiert werden, um den sich ändernden Verbraucherpräferenzen und Markttrends gerecht zu werden. Andererseits ist es wichtig, die Markenidentität und den Wiedererkennungswert zu erhalten. Unser Blogbeitrag beleuchtet, die rechtlichen Rahmenbedingen auf der Basis des europäischen Markenrechts und analysiert welche Möglichkeiten Markeninhaber haben, ihre Marken anzupassen und weiterzuentwickeln, ohne dabei ihre Schutzrechte zu gefährden. Wir zeigen auf, welche Fallstricke es bei der Modernisierung einer Marke zu beachten gilt und geben praktische Tipps für eine erfolgreiche Markenpflege.
Die GEMA scheint nun gegenüber den Anbietern generativer KI-Systeme in die Offensive zu gehen. Nachdem sie bereits Ende September ein – aus ihrer Sicht faires – Lizenzmodell für generative künstliche Intelligenz vorgestellt hatte, folgte Anfang November eine „KI-Charta“ als Denkanstoß und Leitfaden für einen verantwortungsvollen Umgang mit generativer KI und nun schließlich die Einreichung einer Klage gegen OpenAI beim Landgericht München I.
In einem wegweisenden Urteil hat der Europäische Gerichtshof (EuGH) am 24. Oktober 2024 entschieden, dass die Mitgliedstaaten der Europäischen Union verpflichtet sind, Werke der angewandten Kunst unabhängig von ihrem Herkunftsstaat oder der Staatsangehörigkeit ihrer Schöpfer zu schützen. „Werke der angewandten Kunst“ sind Gegenstände, die einem bestimmten Gebrauchszweck dienen, gleichzeitig aber künstlerisch gestaltet sind. Beispiele hierfür sind Möbel wie Stühle, Regale und Lampen, aber auch – unter engen Voraussetzungen – Modeschöpfungen.
Der Einsatz von Cheat- oder Modifikationssoftware ist in der Welt der Videospiele seit jeher umstritten. Während viele Spieler darin eine Möglichkeit sehen, Spiele einfacher oder spannender zu gestalten, sehen Entwickler und Hersteller in solchen Eingriffen häufig eine Bedrohung ihrer Rechte und der Integrität ihrer Produkte. In einem Rechtsstreit zwischen Sony und der britischen Firma Datel über die Verwendung der Cheat-Software „Action Replay“, die es den Nutzern ermöglichte, den Spielverlauf zu verändern, um sich eigentlich nicht vorgesehene Vorteile zu verschaffen, musste sich der EuGH mit der urheberrechtlichen Komponente dieser Thematik auseinandersetzen. Wie der Fall entschieden wurde und welche Auswirkungen das Urteil auf die Praxis der Softwareentwicklung hat, erfahren Sie in unserem Beitrag.