Zum Hauptinhalt Zur Navigation

Urheberrecht: Microsoft räumt Fehler bei Harry-Potter-KI-Training ein

Microsoft hat Harry-Potter-Raubkopien für KI -Training empfohlen. Nach Kritik räumt der Konzern einen Fehler ein und löscht den Blogpost.
/ Nils Matthiesen
6 Kommentare News folgen (öffnet im neuen Fenster)
Microsoft gesteht Harry-Potter-KI-Fehler. (Bild: Fabrice COFFRINI / AFP via Getty Images)
Microsoft gesteht Harry-Potter-KI-Fehler. Bild: Fabrice COFFRINI / AFP via Getty Images

Microsoft hat einen kontroversen Blogeintrag (Link zur gespeicherten Version bei Archive.org)(öffnet im neuen Fenster) gelöscht, in dem Entwickler dazu ermutigt wurden, die Harry-Potter-Buchreihe als Datensatz für das Training generativer KI zu verwenden. Das berichtet Ars Technica(öffnet im neuen Fenster) . Auf Nachfrage von Ars Technica räumte Microsoft den Fehler ein: "Wir haben in unserer Anleitung einen Fehler gemacht, indem wir suggeriert haben, dass der Harry-Potter-Datensatz gemeinfrei sei" .

Der im November 2024 veröffentlichte Text der Senior Product Managerin Pooja Kamath schlug vor, die "bekannten und beliebten" Inhalte zu nutzen, um die Integration von Azure SQL DB und Langchain zu demonstrieren. Kritiker auf Hacker News(öffnet im neuen Fenster) und Rechtsexperten wiesen umgehend darauf hin, dass die vorgeschlagene Nutzung Urheberrechtsverletzungen begünstigt. Microsoft wollte damit zeigen, wie einfach sich KI-Funktionen mit wenigen Zeilen Code implementieren lassen. Als "anschauliches Beispiel" diente die Erstellung von Fan-Fiction auf Basis der Zaubererwelt.

Verweis auf illegale Quellen

Besonders brisant: Der Blogpost verlinkte direkt auf einen Datensatz der Plattform Kaggle, der alle sieben Bände der Reihe als Textdateien enthielt. Der Ersteller des Datensatzes, ein indischer Datenwissenschaftler, gab an, die Werke fälschlicherweise als Public Domain (gemeinfrei) markiert zu haben. Tatsächlich hält J.K. Rowling die Rechte strikt unter Verschluss. Microsoft übernahm diese falsche Einordnung ungeprüft in die eigene Dokumentation.

In dem Blogpost wurde zudem ein Beispiel für KI-generierte Fan-Fiction präsentiert. Darin trifft Harry Potter im Hogwarts-Express einen Freund, der ihm die Vorzüge von Microsofts Native Vector Support erklärt. Der Beitrag enthielt zudem ein KI-generiertes Bild von Harry Potter, das im Kontext der Microsoft-Eigenwerbung präsentiert wurde. Damit wurden urheberrechtlich geschützte Charaktere direkt für Marketingzwecke der Azure-Plattform instrumentalisiert.

Rechtliche Grauzone und Haftungsrisiken

Rechtsprofessorin Cathay Y. N. Smith vom Chicago-Kent College of Law erklärte, dass Microsoft hier ein erhebliches Risiko eingegangen sei. Während das reine Training von KI-Modellen in einigen Kontexten als Fair Use gelten kann, sei die Aufforderung zum Download offensichtlich illegaler Kopien sowie die Erzeugung von Inhalten mit geschützten Charakteren hochproblematisch. Microsoft könne hier für beihilfeweise Urheberrechtsverletzung haftbar gemacht werden.

Der Vorfall ist kein Einzelfall: In einem anderen Azure-Beispiel(öffnet im neuen Fenster) wurde die Foundation-Reihe von Isaac Asimov auf ähnliche Weise genutzt. Dass Microsoft den Fehler nun offen zugibt, unterstreicht die Sensibilität des Themas KI-Training und Urheberrecht. Der fragliche Datensatz auf Kaggle wurde inzwischen gelöscht, nachdem er zuvor über 10.000 Mal heruntergeladen worden war.


Relevante Themen