KI-Training: Wikipedia liefert strukturierte Inhalte direkt an Kaggle

Für das Training von KI-Modellen müssen Entwickler nicht mehr selbst die Inhalte des Onlinelexikons Wikipedia aus den Artikeln extrahieren. Wikimedia Enterprise, das kommerzielle Angebot der Wikimedia Stiftung, stellt dazu über das Google-Projekt Kaggle vorbereitete Datensätze bereit. "Dieser Datensatz wurde speziell für Machine-Learning-Workflows entwickelt und vereinfacht den Zugriff auf saubere, vorgeparste Artikeldaten, die sofort für Modellierung, Benchmarking, Ausrichtung, Feinabstimmung und explorative Analysen genutzt werden können" , teilte Wikimedia Enterprise mit(öffnet im neuen Fenster) .
Die Datensätze sind zunächst nur für die englische und französische Sprachversion verfügbar. Die englischsprachige Version(öffnet im neuen Fenster) umfasst rund 80 Gigabyte (GB) an Daten, die in Segmente von jeweils 2,15 GB aufgeteilt wurden. Der französische Datensatz(öffnet im neuen Fenster) ist rund 34 GB groß.
Namensnennung erforderlich
Wikimedia begründet das Vorgehen mit den Worten: "Auch wenn Wikipedia für das menschliche Auge sehr strukturiert erscheint, ist es keine triviale Aufgabe, das darin enthaltene Wissen maschinenlesbar zu extrahieren." Die verschiedenen Projekte, Sprachen und Domänen verfügten über ihre eigenen Experten und ihre eigene Art der Datenstrukturierung.
Die Datensätze basierten auf der Betaversion der strukturierten Inhalte der Snapshot-API(öffnet im neuen Fenster) , die Wikimedia-Projektdaten in einem entwicklerfreundlichen, maschinenlesbaren Format ausgibt. "Anstatt Rohtexte von Artikeln zu scrapen oder zu parsen, können Kaggle-Nutzer direkt mit gut strukturierten JSON-Darstellungen von Wikipedia-Inhalten arbeiten" , heißt es in der Mitteilung.
Da alle Inhalte aus Wikipedia stammen, sind sie unter den Lizenzen CC-BY-SA 4.0 oder GFDL frei verwendbar. In einigen Fällen könnten auch Public-Domain- oder alternative Lizenzen gelten. Wikimedia verlangt von den Nutzern des Datensatzes, "dass sie unsere Erwartungen an eine ordnungsgemäße Namensnennung erfüllen" . In Fällen, in denen eine Namensnennung erforderlich ist, sollten Weiterverwender das Wikimedia-Projekt, aus dem der Inhalt stammt, als Quelle angeben.



