Zurück
Zurück zur
Blog-Übersicht
February 6, 2024

2 Teil: Scraping, Crawling, Data-Mining - ist das rechtlich zulässig? Fokus: Urheberrecht

2 Teil: Scraping, Crawling, Data-Mining - ist das rechtlich zulässig? Fokus: Urheberrecht

Softwarerecht: Training von KI-Systemen und Urheberrecht

In dieser Blog-Reihe werden die rechtlichen Hintergründe von Scraping, Crawling und Data-Mining betrachtet. Dieser Beitrag ist dem Thema: "KI und Urheberrecht" gewidmet.

Ist Scraping unter urheberrechtlichen Gesichtspunkten zulässig?

 Bei der Beurteilung, ob Crawling unter urheberrechtlichen Gesichtspunkten zulässig ist, ist die Bestimmung des § 42h Abs 6 UrhG von großer Relevanz.

§ 42h Abs 6 UrhG regelt, dass eine Vervielfältigung im Rahmen von Text- und Data-Mining nur dann unter die freie Werknutzung fällt,wenn

  • das jeweilige Werk rechtmäßig zugänglich war  und 
  • die Vervielfältigung nicht durch einen Nutzungsvorbehalt  ausdrücklich verboten wurde

§ 42h Abs 6 UrhG gestattet dauerhafte Vervielfältigungen (bzw Entnahmen aus Datenbanken) digitaler Daten, also insbesondere das Herunterladen zur Herstellung eines Korpus, etwa via Web Scraping, und Kopiervorgänge während des KI-Trainings, sowie die Aufbewahrung (Speicherung) besagter Vervielfältigungen (bzw Entnahmen aus Datenbanken), solange dies für die Zwecke des Text- und Data-Minings bzw zur Datenauswertung und Informationsgewinnung notwendig ist.

Zu beachten ist, dass § 42h UrhG per 1.1.2022 in Kraftgetreten ist und keine Rückwirkung vorgesehen wurde. Demnach sind Nutzungen, vor diesem Zeitpunkt auch nicht von der Ausnahme gedeckt und stellen daher jedenfalls eine Verletzung von Urheberrechten dar.

 

KI-Systeme und Data-Governance: Rechtmäßige Zugänglichkeit

Als rechtmäßig gilt ein Zugang, der auf einer vertraglichen Abrede basiert der „auf der Grundlage einer Open Access Strategie“ gewährt wird. Ein rechtmäßiger Zugang liegt vor, wenn

- Inhalte nicht durch technische Schutzmaßnahmen gegen Zugang und Vervielfältigungen geschützt,

- oder aufgrund einer Open Access Strategie

- oder einer vertraglichen Vereinbarung mit den Rechteinhaber zugänglich sind,

- oder es sich um Inhalte handelt, die frei im Internet zugänglich sind,

oder bei denen der Nutzer über eine Lizenz zu den digitalen Inhalten hat.

Als rechtmäßig zugänglich gelten auch Inhalte, die im Internet frei zugänglich gemacht wurden. Eine solche Zugänglichkeit wird man jedoch nicht annehmen können, wenn für den Zugriff Schutzmaßnahmen umgangen werden müssen. Auch eine offensichtlich rechtswidrige Quelle wird dazu führen, dass die Privilegierung nach § 42h UrhG nicht zur Anwendung gelangt.

 

KI-Systeme und Data-Governance: Nutzungsvorbehalt

Im Zusammenhang mit Text- und Data-Mining gilt es den möglichen Nutzungsvorbehalt des Rechteinhabers zu beachten. Demnach sind solche Werke ausgenommen, für die der Rechteinhaber die Verwertungsform des Text-und Data-Mining untersagt hat. Der Nutzungsvorbehalt muss in maschinenlesbarer Form, etwa in den AGB, den Nutzungsbedingungen oder im Impressum, erklärt werden, um wirksam zu sein. Hinsichtlich der Maschinenlesbarkeit ist weiters zu verlangen, dass dies technisch so umgesetzt wurde, dass auch Webcrawler beim automatisierten Auslesen von robots.txt-Dateien erklärte Nutzungsvorbehalte tatsächlich auffinden und erkennen können.

Das Text- und Data-Mining für den eigenen Gebrauch kann vom Rechteinhaber entweder einseitig oder vertraglich vereinbart werden. Der Nutzungsvorbehalt ist ausdrücklich und in angemessener Weise zu erklären.

 

Texte- und Data-Mining: Auswirkungen für KI-Systeme in der Softwareentwicklung

 

Angemessen ist ein Nutzungsvorbehalt dann, wenn dieser mit maschinenlesbaren Mitteln erklärt wurde. § 42h Abs 6 Satz 2 UrhG normiert diesbezüglich, dass der Nutzungsvorbehalt bei über das Internet öffentlich zugänglich gemachten Werken mit maschinenlesbaren Mitteln kenntlich zu machen ist. Als maschinenlesbar gilt ein Nutzungsvorbehalt dann, wenn er durch Software interpretierbar ist. Dieses Kriterium erfüllen Vorbehalte, die im HTML-Code einer Website verankert wurden oder in einer robots.txt-Datei enthalten sind, die im Stammverzeichnis einer Domain abgelegt wurde. Denkbar ist wohl auch ein Hinweis in einer PDF-Datei, die durch Verwendung einer OCR-Schriftmaschinenlesbar ist bzw entsprechend nachbearbeite wurde. Der Nutzungsvorbehalt muss nicht direkt beim entsprechenden Werk angebracht werden. Es reicht auch aus, wenn dieser bloß in den Metadaten der Website oder in den Allgemeinen Geschäftsbedingungen ersichtlich ist, solange dieser maschinenlesbar ist. Der Nutzungsvorbehalt kann auch im Impressum erklärt werden.

Beispiele, in welchen in den Terms of Use ausdrücklich darauf hingewiesen wird, dass ein Zugriff mittels Crawler oder ähnlichen Technologien, auch zum Zwecke des Trainings von Algorithmen, zu unterlasse nist, findet man etwa bei Clarivate, Elsevier SpringerLink oder Technology Review.

Plattformbetreiber wie Twitter oder YouTube hingegen sehen Regeln vor, die Crawling oder Data-Mining nicht per se untersagen, sondern die Möglichkeit eröffnen, hierfür auf eine konkrete Anfrage eine Genehmigung zu erhalten.

Im nächsten Blog-Beitrag wird das Training von KI-Systemen unter datenschutzrechtlchen Gesichtspunkten behandelt.

Zurück
Zurück zur
Blog-Übersicht