Sordi: BMW will riesigen Open-Source-Datensatz veröffentlichen
Zum Training von KI braucht es Daten. Zusammen mit Microsoft und Nvidia hat BMW einen Datensatz erstellt, der für die Industrie gedacht ist.

Der Automobilkonzern BMW hat angekündigt, einen riesigen Datensatz mit Bildern zum Training von Machine-Learning-Modellen als Open Source zu veröffentlichen. Der Datensatz Synthetic Object Recognition Dataset for Industries (SORDI) "besteht aus mehr als 800.000 fotorealistischen Bildern und Produktionsressourcen in 80 Klassen", heißt es von BMW. Der Datensatz soll Entwicklern künftig explizit frei zur Verfügung stehen - unter welcher Lizenz, ist allerdings noch nicht klar.
Hauptfokus des Datensatzes liegt dabei wohl auf der eigenen Produktion sowie auch industriellen Anwendungen. BMW selbst spricht hier von dem "weltweit größten Referenz-Datensatz für Künstliche Intelligenz im Bereich Manufacturing". Ausgangspunkt für gut funktionierende KI-Modelle sind Bildersammlungen für spezifische Bereiche. Genutzt wird solch ein enger Fokus auf eine klare Nische etwa bereits in der Medizintechnik.
Die Bilder des Datensatzes sind dabei in verschiedene Klassen unterteilt und zeigen typische Objekte der industriellen Produktion und Fertigung. Dazu gehören etwa Paletten, Gitterboxen für Material oder auch Gabelstapler. Weiter heißt es: "Die integrierten Label ermöglichen als digitale Etiketten grundlegende Aufgaben der Bildverarbeitung wie Klassifizierung, Objektdetektion oder Segmentierung".
Das Besondere an den Bildern in Sordi, der zusammen mit Microsoft, Nvidia und Idealworks erstellt worden ist, ist deren Herkunft. Denn dabei handelt es sich nicht um fotografische Aufnahmen, sondern um fotorealistische Renderings. BMW schreibt dazu: "Die Rendering-Pipeline aus dem BMW Tech-Office Munich ermöglicht es, eine beliebige Anzahl von Fotos inklusive Labels automatisch zu erstellen."
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed