Zum Hauptinhalt Zur Navigation

Machine Learning: Githubs Copilot schlägt wohl weiter Code-Kopien vor

Trotz zahlreicher Vorkehrungen soll Githubs KI-Coding-Tool Copilot Code teils wörtlich kopieren, was Lizenzverletzungen bedeuten könnte.
/ Sebastian Grüner
3 Kommentare News folgen (öffnet im neuen Fenster)
Githubs Copilot soll mit KI beim Programmieren helfen. (Bild: Github)
Githubs Copilot soll mit KI beim Programmieren helfen. Bild: Github

Der Professor für Informatik an der Texas-A&M-Universität, Tim Davis, schreibt auf Twitter(öffnet im neuen Fenster) , dass das KI-Coding-Werkzeug Copilot von Github große Teile Code aus der Modellerzeugung vorschlägt, die eigentlich Kopien des von Davis selbstgeschriebenen Codes seien. Das geschehe zudem ohne Hinweis auf die Urheberschaft oder auf die von Davis genutzte Lizenz der LGPL. Eine direkt Übernahme des Codes aus Copilot könnte also eine Urheberrechts- und Lizenzverletzung nach sich ziehen, sofern der Code tatsächlich reproduziert wird.

Der Informatikprofessor liefert weitere Beispiel für ähnliche Fälle, bei denen nur sehr leichte Veränderungen zu seinem Code erkennbar seien. Davis kommt deshalb zu folgendem Schluss: "Ich könnte wahrscheinlich meine gesamten Bibliotheken für dünnbesetzte Matrizen aus einfachen Eingabeaufforderungen reproduzieren." Dass der Code von Copilot dabei nicht nur zufällig ähnlich erzeugt worden sei, versucht Davis damit zu unterlegen, dass Copilot auch Vorschläge "im Stil von Tim Davis" erzeugen könne, bei dem wiederum sein Code ausgegeben werde. Das Copilot-Modell habe deshalb ein Verständnis dafür, dass es sich um Davis' Code handele, schreibt der Professor.

Github selbst gibt etwa in einer Untersuchung der eigenen Nutzung(öffnet im neuen Fenster) zu, dass die Reproduktion kleinerer Code-Snippets oder auch größerer Zitate durch Copilot möglich sei. Eine Option von Copilot ermöglicht das Ausfiltern von Vorschlägen über 150 Zeichen, falls die Vorschläge identisch zu öffentlich verfügbarem Code sind. Die Erfahrung mit Machine-Learning-Modellen zeigt darüber hinaus, dass diese unter bestimmten Umständen und einer geschickten Wahl der Eingabe zur Ausgabe ihrer Trainingsdaten oder dazu sehr ähnlicher Daten bewegt werden können(öffnet im neuen Fenster) . Das könnte etwa mit einem sehr spezifischen Kontext der Eingabe geschehen, wie im Fall von Davis.

Ob es sich bei den Copilot-Vorschlägen letztlich wirklich um die direkte Ausgaben des Codes von Davis handelt oder nicht, bleibt zunächst offen und könnte wohl nur durch ein Gericht abschließend geklärt werden. Und selbst wenn, bleiben noch weitere zu klärende Detailfragen wie etwa nach der Schöpfungshöhe, die im Fall weniger Codezeilen zum transponieren einer Matrix, wie bei Davis, wohl kaum gegeben sein dürfte. Auf diese und weitere rechtliche Aspekte im Zusammenhang mit Copilot wies auch Urheberrechtsexperte Felix Reda vor mehr als einem Jahr(öffnet im neuen Fenster) hin.


Relevante Themen