2024

–

Artikel

Grundsatzentscheidung des LG Hamburg zur urheberrechtlichen Zulässigkeit von Data Scraping für das Training von KI-Modellen

Künstliche Intelligenz ist zu Recht in aller Munde, verspricht sie doch, den gewohnten Alltag nachhaltig zu verändern. Damit stellt sie aber auch das Recht, das der technischen Entwicklung traditionell hinterherhinkt, vor große Herausforderungen – insbesondere im Bereich des Datenschutzes und des Urheberrechts.

Mehr IP-News auf LinkedIn

Neben einigen großen Verfahren in den USA sind nun auch in Deutschland erste Fälle vor Gericht anhängig, die sich mit interessanten urheberrechtlichen Fragen sowohl auf der Input- als auch auf der Output-Seite von KI-Modellen befassen. Das Landgericht Hamburg hat sich nun als erstes deutsches Gericht mit der urheberrechtlichen Zulässigkeit der automatisierten Sammlung und Nutzung urheberrechtlich geschützter Werke zum Zwecke des KI-Trainings befasst. In unserem Blog besprechen wir das Urteil vom 27. September 2024 (Az. 310 O 227/23), ordnen seine Bedeutung für Sie ein und geben sowohl Urhebern als auch KI-Entwicklern Hinweise für die Praxis.

1. Technischer Hintergrund

Künstliche Intelligenz (KI) hat in den vergangenen Jahren erhebliche Fortschritte erzielt und findet Eingang in immer mehr Bereiche des Alltags und des Berufslebens. Besonders von sich Reden machen große Sprachmodelle (LLMs) wie beispielsweise ChatGPT oder Bild-Generatoren wie Midjourney.

Die Leistungsfähigkeit dieser KI-Systeme hängt maßgeblich von der Qualität und Quantität der Daten ab, mit denen sie trainiert werden. Eine gängige Methode zur Sammlung dieser großen Datenmengen ist das sogenannte „Data-Scraping“. Bei diesem automatisierten Prozess durchsuchen Softwareprogramme (sog. „Bots“ oder „Crawler“) das Internet systematisch und extrahieren Informationen von Webseiten, insbesondere Texte, Bilder, Videos, Programmcodes oder andere digitale Inhalte. Der Prozess läuft dabei folgendermaßen ab: Ein Crawler besucht eine Webseite und liest deren Inhalt aus. Im Anschluss folgt er den auf der Webseite vorhandenen Links zu weiteren Seiten und wiederholt den Vorgang. Auf diese Weise können innerhalb kurzer Zeit große Datenmengen automatisiert gesammelt werden. Die gesammelten Daten werden anschließend auf Datenservern der KI-Anbieter gespeichert, für das Training der KI-Modelle verwendet und anschließend wieder gelöscht.

Data-Scraping ist deshalb besonders attraktiv, weil das freie Internet eine extrem vielfältige und umfangreiche Datenbasis bereithält, die sekündlich weiter anwächst und fortlaufend aktualisiert wird – und dennoch kostenlos zugänglich ist. Zugleich wirft die Methode zahlreiche rechtliche Fragen auf: Denn auch wenn viele Informationen im Internet frei zugänglich sein mögen, gerät ihre Extraktion und Nutzung zum Training von KI-Modellen ohne Zustimmung oder gar Lizenz in einen offensichtlichen Konflikt mit dem Urheberrecht – denn die freie Abrufbarkeit von Inhalten steht ihrem urheberrechtlichen Schutz nicht entgegen.

2. Entscheidung des LG Hamburg

In einem aktuellen Verfahren hatte das Landgericht Hamburg nun als erstes deutsches Gericht Gelegenheit, sich mit den urheberrechtlichen Implikationen solcher Datensammlungen zum KI-Training zu befassen. Das Urteil betrifft also die Input-Seite von KI-Modellen, nicht die Output-Seite (etwa die Frage der urheberrechtlichen Schutzfähigkeit KI-generierter Inhalte).

Sachverhalt

Der Kläger ist ein Produzent und Fotograf von Stockfotos, die er über verschiedene Stockfoto-Plattformen vertreibt. Beklagter ist ein gemeinnütziger Verein mit dem selbsterklärten Ziel, offene Datensätze, Werkzeuge und Modelle zur Verfügung zu stellen und so die Forschung im Bereich des maschinellen Lernens zu fördern. Einer dieser Datensätze beinhaltet ca. 5,8 Milliarden Text- und Bildpaare, die von dem Beklagten durch automatisiertes Data-Scraping aus öffentlich zugänglichen Quellen im Internet gesammelt wurden. Der Datensatz wurde von dem Beklagten anschließend zum Training von KI-Modellen zur Verfügung gestellt.

Der Kläger stellte fest, dass eines seiner Bilder ohne seine Zustimmung in dem Datensatz verwendet wurde. Konkret handelte es sich um ein Bild, das ursprünglich auf einer Plattform für Stockfotos und -videos hochgeladen und in niedriger Auflösung sowie mit einem Wasserzeichen versehen in den Datensatz übernommen wurde. In den Nutzungsbedingungen der Plattform hieß es, dass das automatisierte Herunterladen und die Nutzung der Inhalte durch Bots oder ähnliche Programme untersagt sei.

In der Verwendung sah der Kläger eine Verletzung seines Urheberrechts und verlangte von dem Beklagten die Entfernung seines Bildes aus dem Trainingssatz sowie Auskunft über den Umfang der Verwendung seines Werkes.

Rechtliche Würdigung durch das Gericht

Das Gericht weist die Klage ab. Nachdem es zunächst wenig überraschend eine Vervielfältigung i.S.v. § 16 UrhG bejaht, die grundsätzlich nur mit Zustimmung des Urhebers vorgenommen werden darf, wendet es sich der rechtlichen Kernfrage des Falles zu: Der Prüfung der „Text- und Data-Mining“-Schranken („TDM-Schranken“).

Das Gericht äußert sich zunächst ausführlich zu § 44b UrhG und stellt unter Verweis auf den Wortlaut der Vorschrift fest, dass automatisiertes Data Scraping grundsätzlich als Text- und Data Mining im Sinne der Vorschrift zu qualifizieren sei, da die Vervielfältigung der Gewinnung von Informationen über „Korrelationen“ diene. Eine teleologische Reduktion der Vorschrift, wie sie im Schrifttum teilweise vorgeschlagen wird (s.u.), lehnt das Gericht ab.

Obiter dicens äußert sich das Gericht sodann zu der in § 44b Abs. 3 UrhG geregelten Rückausnahme, wonach Text- und Data-Mining unzulässig ist, wenn der Rechteinhaber einen Nutzungsvorbehalt erklärt hat, der bei im Internet zugänglichen Daten „maschinenlesbar“ sein muss. Der Kläger verwies insoweit auf das in den Nutzungsbedingungen der Plattform enthaltene Verbot des automatisierten Herunterladens und der Nutzung dieser Inhalte durch Bots oder ähnliche Programme (s.o.). Das Gericht lässt hierzu zunächst die Tendenz erkennen, dass sich der Kläger auf diesen von einem Dritten erklärten Nutzungsvorbehalt berufen könne und dieser auch hinreichend klar formuliert sei. Zudem spreche einiges dafür, dass dieser Nutzungsvorbehalt auch den Anforderungen an die „Maschinenlesbarkeit“ genüge. Es sei ein Wertungswiderspruch, KI-Entwicklern über die Schrankenregelung des § 44b UrhG die Entwicklung immer leistungsfähigerer textverstehender KI-Modelle zu ermöglichen, ihnen andererseits aber die Anwendung bereits bestehender KI-Modelle im Rahmen der Rückausnahme nicht zuzumuten. Entscheidend sei damit letztlich, ob zum Zeitpunkt der Vervielfältigungshandlung eine Technologie zur Verfügung stand, die den Inhalt des Nutzungsvorbehalts hätte erfassen können. Im Ergebnis lässt das Gericht jedoch offen, ob die Schrankenschranke eingreift.

Denn der besonderen Konstellation des Falles ist es geschuldet, dass das Gericht die speziellere TDM-Schranke in § 60d UrhG heranziehen konnte. Danach sind Vervielfältigungen für Text- und Data-Mining für Zwecke der wissenschaftlichen Forschung zulässig, sofern sie von nicht-kommerziellen Forschungsorganisationen vorgenommen werden. Eine Rückausnahme hiervon gilt nach § 60d Abs. 2 S. 3 UrhG, wenn ein privates Unternehmen auf die Forschungsorganisation einen bestimmenden Einfluss ausübt und bevorzugten Zugang zu den Ergebnissen der wissenschaftlichen Forschung hat. Das Gericht ging davon aus, dass der Beklagte eine Forschungsorganisation im Sinne der Vorschrift ist. Für das Eingreifen dieser Rückausnahme treffe den Kläger die Beweislast, der er im vorliegenden Fall nicht nachgekommen sei.

Das Urteil ist nicht rechtskräftig. Dem Vernehmen nach sind die Parteien bestrebt, die streitentscheidenden Fragen durch die Instanzen zu tragen und höchstrichterlich klären zu lassen. Da § 44a UrhG und § 60d beide auf Unionsrecht beruhen, ist damit zu rechnen, dass dieser (oder ein vergleichbarer Fall) letztlich vom EuGH entschieden werden muss – bis dahin wird allerdings noch einige Zeit vergehen. Man darf gespannt sein, wie andere deutsche und europäische Gerichte derartige Fälle bis dahin entscheiden werden.

3. Kommentar und Einordnung des Urteils

Die Entscheidung ist, nicht zuletzt durch ihre umfassenden Ausführungen auch zu § 44b UrhG, richtungsweisend und für Technologieunternehmen und Urheber gleichermaßen von Bedeutung. Auch wenn sie sich konkret auf die Nutzung von Bildern bezieht, gilt für Texte, Programmcode, Videos oder Musik nichts anderes – die rechtlichen Fragen sind dieselben. Da §§ 44b, 60d UrhG unionsrechtlich determiniert sind, sollte die Entscheidung auch in anderen Mitgliedstaaten zur Kenntnis genommen werden.

Die Anwendbarkeit der TDM-Schranken auf das automatisierte Data Scraping wurde auch bislang in der (deutschen) rechtswissenschaftlichen Literatur ganz überwiegend bejaht, jüngst aber in einer vielbeachteten und lesenswerten Studie von Dornis/Stober im Auftrag der Initiative Urheberrecht verneint. Während der Wortlaut des § 44b UrhG zwar in der Tat für die Anwendbarkeit der TDM-Schranke auf das KI-Training spricht, stößt das Ergebnis rechtspolitisch durchaus auf Bedenken. Die Vorschrift beruht nämlich auf Art. 4 der DSM-Richtlinie aus dem Jahr 2019 – damals fand KI-Training zwar zweifellos bereits statt; der Gesetzgeber dürfte aber kaum vor Augen gehabt haben, dessen urheberrechtliche Zulässigkeit zu regeln. Darüber hinaus gründet sich die bei Einführung der Vorschrift ausdrücklich gewollte Vergütungsfreiheit letztlich darauf, dass die im Wege des Text- und Data-Mining gewonnenen Erkenntnisse nicht in Konkurrenz zu den Daten bzw. Produkten treten, die ausgelesen werden. Dies ist beim Training generativer KI aber gerade anders: Wie der entschiedene Fall zeigt, werden die KI-Modelle mit (urheberrechtlich geschütztem) Bildmaterial trainiert, um letzten Endes selbst Bilder zu generieren – es entsteht eine Konkurrenzsituation dem Urheber der ausgelesenen Werkes. Anders gewendet: Der Rechteinhaber erhält keine Vergütung für die Nutzung seines Werkes und muss in der Folge auch noch hinnehmen, dass die mit seinem Werk trainierte KI ihm Konkurrenz macht. Ob es wirklich gewollt ist, sich urheberrechtlich geschützter Werke (vergütungs-) frei bedienen zu können, um eine generative KI zu trainieren, die diese Werke ersetzen kann, ist vor diesem Hintergrund durchaus fraglich. Die weiteren Diskussionen hierzu werden, ebenso wie die gesetzgeberischen Aktivitäten und die Bemühungen von Verwertungsgesellschaften um Lizenzierungsmodelle, zu beobachten sein.

Überraschend – weil entgegen der bislang vorherrschenden Auffassung im Schrifttum – ist die obiter dicens geäußerte Tendenz des Gerichts zur vermeintlichen Kernfrage des Falles, dass Nutzungsvorbehalt i.S.v. § 44b Abs. 3 UrhG wirksam erklärt wurde. Es ist sehr fraglich, ob ein in natürlicher Sprache formulierter Nutzungsvorbehalt tatsächlich „maschinenlesbar“ oder eben nur „menschenlesbar“ ist. Dies gilt auch dann, wenn man die zweifellos beeindruckenden Texterkennungsfähigkeiten großer Sprachmodelle berücksichtigt. Hielte man einen Nutzungsvorbehalt in natürlicher Sprache für ausreichend, stellten sich zahlreiche Folgefragen, die von den Anforderungen an die konkrete Formulierung und den Folgen unklarer Formulierungen über die relevanten Sprachen bis hin zur Platzierung auf der Website reichen. „Maschinenlesbar“ dürfte indes richtigerweise nur eine Anweisung an den Crawler sein, die dieser ohne Weiteres als solche identifizieren und eindeutig verstehen kann. Verbreitet – zugegebenermaßen aber keineswegs jedermann bekannt – ist insoweit der Robots Exclusion Standard, bei dem eine einfache Textdatei namens robots.txt im Stammverzeichnis der Webseite hinterlegt wird, die bestimmten Bots und Crawlern die Auslesung der Webseite ganz oder teilweise untersagen kann, dabei aber freilich auch auf die „Mitarbeit“ des Bots angewiesen sind.

4. Praxishinweis

Für die Praxis wirft das Urteil sowohl Licht als auch Schatten. Aus der Sicht von KI-Entwicklern ist zunächst erfreulich, dass das Data Scraping grundsätzlich unter die TDM-Schranke fällt. Dennoch verbleibt ein gehöriges Maß an rechtlicher Unsicherheit, da die Entscheidung die – nur in § 44b Abs. 3 UrhG enthaltene – Rückausnahme des Nutzungsvorbehalts und insbesondere die Anforderungen an die „Maschinenlesbarkeit“ kaum konturiert – im Gegenteil. Dies gilt erst recht, wenn man die Verpflichtung von KI-Entwicklern berücksichtigt, ihre Systeme so zu gestalten, dass sie maschinenlesbare Widersprüche zuverlässig erkennen und beachten (vgl. Art. 53 Abs. 1 lit. c KI-Verordnung).

Urhebern ist demgegenüber zu raten, selbst proaktive Maßnahmen zu ergreifen und bei der Auswahl der Webseiten, auf denen sie ihre Werke einstellen, besondere Vorsicht walten zu lassen, wenn sie ihre online geteilten Werke vor Data Scraping und damit mittelbar vor der Nutzung für das KI-Training schützen wollen. Spätestens wenn sie Werke an Kunden lizenzieren, die diese ihrerseits im Internet nutzen, stoßen Urheber freilich auf praktische Schwierigkeiten, denn dann müssen die Lizenznehmer verpflichtet werden, auf den betroffenen Webseiten einen wirksamen, maschinenlesbaren Nutzungsvorbehalt aufzunehmen. Sofern sich dies überhaupt praktisch durchsetzen lässt, ist wegen der bestehenden Unsicherheiten bei Nutzungsvorbehalten in natürlicher Sprache bis auf Weiteres zur Nutzung der robots.txt zu raten.

IP-NEWS AUF LINKEDIN

Für innovative Unternehmen in Deutschland und weltweit: HARTE-BAVENDAMM ist spezialisiert auf das Recht des geistigen Eigentums und das Wettbewerbsrecht.

Kontakt

Das könnte Sie ebenfalls interessieren

Artikel

„Mit KI erstellt“? Die neue Kennzeichnungspflicht für KI-Inhalte ab August 2026

von

Michael Wittlinger

Ab dem 2. August 2026 gilt die Kennzeichnungspflicht aus Art. 50 Abs. 4 KI-VO – und sie trifft praktisch jeden, der generative KI beruflich für Bilder, Videos oder Texte einsetzt. Am 10. Juni 2026 hat die Europäische Kommission den finalen Verhaltenskodex zur Kennzeichnung KI-generierter Inhalte vorgelegt. Wir zeigen, wann eine Kennzeichnung erforderlich ist, wie sie aussehen muss und welche Risiken ihr Fehlen birgt.

Artikel

OLG Bamberg verurteilt TikTok: DSA-Pflichten zu De-Personalisierungsoptionen und Meldeverfahren sind verbraucherschützend und per Verbandsklage durchsetzbar

von

Michael Wittlinger

OLG Bamberg, Endurteil vom 18. März 2026, Az. 3 UKl 5/25 e | Erstmals hat ein Oberlandesgericht entschieden, dass die Pflichten zu Empfehlungssystemen und Meldeverfahren nach dem Digital Services Act verbraucherschützend sind und von Verbraucherverbänden per Unterlassungsklage durchgesetzt werden können. Der Senat konturiert dabei unbestimmte Rechtsbegriffe zur Ausgestaltung der De-Personalisierungsoption und des formellen Notice-and-Action-Verfahrens. Wir fassen die Entscheidung zusammen und geben Hinweise für die Praxis.

Artikel

Obelix vs. Obelix: When a Famous Comic Character Goes to War at the General Court

von

Cathérine Elkemann

The EUIPO saw no problem with OBELIX on goods such as firearms and explosives. Les Éditions Albert René did. In its judgment of 13 May 2026 in Case T-24/25, the General Court sided with the publisher — finding EUIPO's assessment of both reputation and the required link between the marks to be fundamentally flawed.

Artikel

Schutzrechtshinweise: Die kommunikativen Fallstricke hinter ®, ™ und Ⓓ

von

Leonhard Sonner

Symbole wie „®“ oder Hinweise wie „Patentiert“ dürften allseits bekannt sein. Man begegnet ihnen nahezu täglich, etwa auf Produktverpackungen im Handel. Präziser werden sie auch als „Schutzrechtshinweise“ bezeichnet und gehören heutzutage in Deutschland zum festen Inventar des Wirtschaftsverkehrs. Gleichzeitig werden sie erstaunlich häufig missverstanden.

Alle Blogposts

LET’S TALK
IP