Autonomes Fahren: Waymo gibt Sensordaten für Forscher frei

Nur wenige Firmen haben so viele Daten für das autonome Fahren gesammelt wie Waymo. Googles Schwesterfirma gibt ein Terabyte davon frei - allerdings nicht für den Einsatz in Fahrzeugen.

Artikel veröffentlicht am ,
Waymo stellt gelabelte Verkehrsdaten zur Verfügung.
Waymo stellt gelabelte Verkehrsdaten zur Verfügung. (Bild: Waymo)

Die Alphabet-Tochter Waymo gewährt Forschern einen Einblick in ihre Entwicklung selbstfahrender Autos. Dazu stellt das Unternehmen eine Sammlung mit Sensordaten sowie deren Auswertung zur Verfügung. Unter waymo.com/open können Forscher und Entwickler sich ein Terabyte an Daten herunterladen, die 1.000 Fahrsequenzen von jeweils 20 Sekunden Dauer entsprechen. Bei einer Aufnahmefrequenz von 10 Hertz entspricht dies 200.000 Aufnahmen. Der Automobilzulieferer Aptiv hatte im vergangenen März mit Nuscenes einen vergleichbaren Datensatz veröffentlicht.

Stellenmarkt
  1. Beraterinnen / Berater (w/m/d) für den Bereich "Informationssicherheitsbera- tung für den ... (m/w/d)
    Bundesamt für Sicherheit in der Informationstechnik (BSI), Bonn
  2. CAD/CAM Programmierer (w/m/d)
    AIXTRON SE, Herzogenrath
Detailsuche

Die Aufnahmen stammen laut Waymo von fünf verschiedenen Lidar-Typen sowie fünf Kameras und sind synchronisiert. Neben den Originalaufnahmen gibt es auch Datensätze mit klassifizierten Objekten. In den ausgewerteten Daten sind vier Objekttypen klassifiziert: Fahrzeuge, Fußgänger, Fahrradfahrer und Verkehrsschilder. Die Lidar-Daten enthalten zudem 12 Millionen Objekt-Labels (Erläuterung) mit einer sogenannten 3D-Bounding-Box (Begrenzungsquader) und einer Tracking-ID. Die Kameradaten enthalten 1,2 Millionen Begrenzungsrechtecke in 2D mit Tracking-ID. Das heißt, nur 100 der 1.000 Sequenzen enthalten die 2D-Labels.

Kein Einsatz in Fahrzeugen erlaubt

Waymo hat die Daten auf 40 Archivdateien verteilt, die jeweils 25 Gigabyte groß sind. Ausgepackt soll der Datensatz 1 Terabyte groß sein. Darüber hinaus stellt Waymo auf Github noch Code in C++ und Python bereit, um die Daten zu evaluieren. Dabei nutzt das Unternehmen das Framework Tensorflow. Die einzelnen Sequenzen sind etwa 1 Gigabyte groß und im Format .TFrecord abgespeichert.

Laut Waymo ist der "große, vielfältige und hochqualitative Datensatz extrem wertvoll für Forschungszwecke". Eine kommerzielle Nutzung wird in den Lizenzvereinbarungen allerdings untersagt. Doch nicht nur das: Waymo verbietet ausdrücklich die Nutzung der Daten "für den Betrieb von Fahrzeugen". Das heißt, wenn Wissenschaftler an Universitäten oder Forschungsinstituten ihre neuronalen Netze mit den Waymo-Daten trainieren, dürfen sie später die Gewichte (Erläuterung) nicht nutzen, um Testautos damit zu steuern.

Nicht nur Google gibt Daten frei

Golem Karrierewelt
  1. AZ-500 Microsoft Azure Security Technologies (AZ-500T00): virtueller Vier-Tage-Workshop
    28.11.-01.12.2022, virtuell
  2. Deep-Dive Kubernetes – Production Grade Deployments: virtueller Ein-Tages-Workshop
    08.11.2022, Virtuell
Weitere IT-Trainings

Allerdings ist nicht ganz klar, wie Waymo das kontrollieren will. Wenn neuronale Netze mit verschiedenen Datensätzen trainiert werden, lässt sich später kaum feststellen, welche Daten dafür genutzt wurden. Ebenfalls problematisch: Wer sich als Wissenschaftler die Daten herunterlädt, nimmt damit die Lizenz für seine komplette Organisation an.

Der Autozulieferer Aptiv verwendet für seinen Datensatz die CC-Lizenz BY-NC-SA 4.0, die eine kommerzielle Nutzung ebenfalls ausschließt. Neben Waymo und Aptiv gibt es noch entsprechende Daten von Kitti (PDF), Cityscapes und Apollo/Baidu.

Wird Datenherausgabe zur Pflicht?

Waymo weist darauf hin, dass der Datensatz nicht die vollen Fähigkeiten der Sensorsysteme wiedergebe und nur einem Bruchteil der Daten entspreche, mit denen die selbstfahrenden Systeme trainiert würden. Das Unternehmen hat Anfang März 2019 angekündigt, die selbst entwickelten Lidar-Sensoren künftig zu vermarkten und für andere Anbieter zu produzieren.

Die Sammlung und Auswertung von Verkehrssituationen ist ein zentrales Element bei der Entwicklung selbstfahrender Autos. Die neuronalen Netze werden anhand von klassifizierten Aufnahmen trainiert, damit sie im Straßenverkehr die einzelnen Objekte richtig erkennen können. Die aufgenommenen Bilder müssen dafür zunächst gelabelt werden, damit das neuronale Netz anhand korrekter Zuordnungen lernt, welche Objekte welchem Klassifikator zugeordnet werden sollen.

In der Politik gab es in der Vergangenheit Überlegungen, führende Unternehmen zur Herausgabe ihrer Daten zu zwingen. Damit könnten Firmen wie Google gesetzlich verpflichtet werden, deutlich mehr Daten als die 1.000 Sequenzen für Forschungszwecke zur Verfügung zu stellen. So sagte EU-Wettbewerbskommissarin Margrethe Vestager im Frühjahr: "Anstatt über die Zerschlagung der Unternehmen sollten wir lieber darüber diskutieren, das Rohmaterial aufzuteilen, auf dem ihr Geschäftsmodell aufgebaut ist: Daten. Das könnte für Wettbewerb sorgen."

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Cloudgaming
Google Stadia scheiterte nur an sich selbst

Die Technik war nicht das Problem von Alphabets ambitioniertem Cloudgaming-Dienst. Das Problem liegt bei Google. Ein Nachruf.
Eine Analyse von Daniel Ziegener

Cloudgaming: Google Stadia scheiterte nur an sich selbst
Artikel
  1. Tiktok-Video: Witz über große Brüste kostet Apple-Manager den Job
    Tiktok-Video
    Witz über große Brüste kostet Apple-Manager den Job

    Er befummle von Berufs wegen großbrüstige Frauen, hatte ein Apple Vice President bei Tiktok gewitzelt. Das kostete ihn den Job.

  2. Copilot, Java, RISC-V, Javascript, Tor: KI macht produktiver und Rust gewinnt wichtige Unterstützer
    Copilot, Java, RISC-V, Javascript, Tor
    KI macht produktiver und Rust gewinnt wichtige Unterstützer

    Dev-Update Die Diskussion um die kommerzielle Verwertbarkeit von Open Source erreicht Akka und Apache Flink, OpenAI macht Spracherkennung, Facebook hilft Javascript-Enwicklern und Rust wird immer siegreicher.
    Von Sebastian Grüner

  3. Vantage Towers: 1&1 Mobilfunk gibt Vodafone die Schuld an spätem Start
    Vantage Towers
    1&1 Mobilfunk gibt Vodafone die Schuld an spätem Start

    Einige Wochen hat es gedauert, bis 1&1 Mobilfunk eine klare Schuldzuweisung gemacht hat. Doch Vantage Towers verteidigt seine Position im Gespräch mit Golem.de.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • LG OLED TV 2022 65" 120 Hz 1.799€ • ASRock Mainboard f. Ryzen 7000 319€ • MindStar (G.Skill DDR5-6000 32GB 299€, Mega Fastro SSD 2TB 135€) • Alternate (G.Skill DDR5-6000 32GB 219,90€) • Xbox Series S + FIFA 23 259€ • PCGH-Ratgeber-PC 3000€ Radeon Edition 2.500€ [Werbung]
    •  /