Zum Hauptinhalt Zur Navigation

Neuronale Netze: Wie Studenten autonome Autos schlau machen

Daimler und Bosch setzen bei ihren selbstfahrenden Autos auf künstliche Intelligenz . Doch das Trainieren der neuronalen Netzwerke ist mühselig und mit viel Handarbeit verbunden.
/ Friedhelm Greis
19 Kommentare News folgen (öffnet im neuen Fenster)
Die Sensorsysteme müssen zwischen den verschiedenen Objekten im Straßenverkehr unterscheiden. (Bild: Daimler)
Die Sensorsysteme müssen zwischen den verschiedenen Objekten im Straßenverkehr unterscheiden. Bild: Daimler

Einer der vielen Mythen zur künstlichen Intelligenz besteht darin, dass die Systeme nur mit genügend Daten gefüttert werden müssen, um sie lernen zu lassen. "Der Google-Translator etwa übersetzt täglich maschinell circa 100 Milliarden Wörter und wird dadurch stetig trainiert und optimiert" , sagte der CDU-Abgeordnete Hansjörg Durz Ende Juni 2018 im Bundestag(öffnet im neuen Fenster) . Doch so einfach ist es nicht. Ein Übersetzungsprogramm lernt nicht dadurch, dass es selbst übersetzt, sondern menschliche Übersetzungen analysiert(öffnet im neuen Fenster) . Auch beim autonomen Fahren ist viel Handarbeit erforderlich, um sichere Systeme zu entwickeln.

Wie groß dieser Aufwand ist, merken derzeit der Automobilhersteller Daimler und der Zulieferer Bosch. Beide Firmen kündigten in der vergangenen Woche an, schon im kommenden Jahr im US-Bundesstaat Kalifornien einen selbstfahrenden Shuttle-Service zu testen . Wie sie diese Aufgabe meistern wollen, erläuterten Entwickler beider Unternehmen in dieser Woche im neuen Daimler-Testzentrum für autonomes Fahren im baden-württembergischen Immendingen. Neuronale Netze und schnelle Rechner spielen dabei eine entscheidende Rolle.

Hohe Rechenleistung erforderlich

Schon jetzt sind Mercedes-Modelle wie die S- und E-Klasse mit zahlreichen Sensoren und Assistenzsystemen ausgestattet . Doch diese Systeme reichen bei weitem nicht aus, wenn sich ein Auto fahrerlos in einem dichten Stadtverkehr bewegen will. Das Auto muss dann in der Lage sein, die Verkehrssituation vollständig zu erfassen, zu verstehen und die richtige Fahrentscheidung zu treffen. Tödliche Fehler, wie im Frühjahr bei der Kollision eines Uber-Testautos mit einer Fußgängerin , dürfen dann nicht passieren.

Daimler und Bosch entwickeln die erforderliche Hard- und Software weitgehend selbst. Das gilt sowohl für die Sensorauswertung und die Sensordatenfusion als auch für die Fahrwegplanung. Als Kooperationspartner für die schnelle Steuereinheit wurde - ebenfalls in der vergangenen Woche - der US-Chiphersteller Nvidia präsentiert. Auf dessen Plattform Drive PX Pegasus sollen die Billionen an Rechenoperationen in jeder Sekunde durchgeführt werden, die für das autonome Fahren erforderlich sind. Je mehr Schichten ein "tiefes" neuronales Netz hat, desto mehr Rechenleistung ist nötig.

Von Pixeln zu Stixeln

Eine große Rechenleistung braucht es auch deswegen, weil die Kooperationspartner auf ein komplexes Sensorsystem mit Kamera, Lidar und Radar setzen. Vor allem die Kameras liefern viele Rohdaten, die nicht über den Fahrzeugbus zum Zentralrechner geschickt werden können. Um die Datenlast zu reduzieren, hat Daimler das sogenannte Stixel-Konzept entwickelt(öffnet im neuen Fenster) , mit dem das Bild von ein bis zwei Millionen Pixeln in wenige Hundert Stäbe (Sticks) reduziert wird. Die Stixel repräsentieren unterschiedliche Objekte im Verkehrsraum, beispielsweise Verkehrsteilnehmer, Fahrbahn, Straßenschilder, Bäume und andere Gegenstände.

Entscheidend für das autonome Fahren ist nun, dass das Fahrzeug diese Objekte richtig klassifizieren kann. Schon jetzt setze Daimler bei der automatischen Fußgängererkennung seiner Assistenzsysteme auf neuronale Netze, sagt Uwe Franke, Leiter der Abteilung Bildsemantik bei Daimler. Inzwischen verfügten die neu entwickelten Netze über 24 Millionen Neuronen mit 128 Millionen Gewichten, die an Millionen Bildern lernen könnten.

Mühsame Klassifizierung von Objekten

Doch dazu ist viel Handarbeit erforderlich. Denn die aufgenommenen Bilder müssen zunächst "gelabelt" werden, damit das neuronale Netz anhand korrekter Zuordnungen lernt, welche Objekte welchem Klassifikator zugeordnet werden sollen. Daimler setzt dazu unter anderem Studenten ein, die auf den vorgelegten Straßensituationen mehr als 20 unterschiedliche Objekttypen markieren. Damit sei inzwischen auch möglich, Menschen zu erkennen, die von einem Fahrzeug verdeckt würden.

Doch das reicht beim Fahren durch eine belebte Straße mit vielen kreuzenden Fußgängern nicht aus. Dazu muss das Auto auch in der Lage sein, die Bewegungsrichtungen der Personen zu erkennen und deren Wege vorherzusagen. Auch in diesem Fall nutzen Daimler und Bosch neuronale Netze. Diese greifen auf das Originalbild zurück und werten solche Objekte aus, die als Fahrradfahrer oder Fußgänger klassifiziert wurden. Weitere neuronale Netze analysieren auf Basis der gefundenen Objekte noch Verkehrszeichen und Ampelzustände.

Neuronale Netze für verschiedene Aufgaben

Das neuronale Netz für "schwächere Verkehrsteilnehmer" wurde dann so trainiert, dass es die Körperhaltungen der Fußgänger erkennt und daraus einen Vektor für die mögliche Bewegung bestimmt. Dazu wertete Daimler nach eigenen Angaben einen Datensatz von 50.000 Bildern aus, der in ganz Europa erhoben wurde. Auch in diesem Fall war wieder eine händische Bearbeitung erforderlich, "ein wahnsinnig hoher Aufwand" , sagte ein Entwickler. Doch der Datensatz reiche noch längst nicht aus, um damit selbstfahrende Autos auf die Straße zu lassen.

Diese Interpretationen der Bildaufnahmen sagen jedoch nichts über das tatsächliche Verhalten aus. Denn ein Mensch kann schließlich auch rückwärts gehen. Hierzu vergleicht das System die Aufnahmen über eine Zeitachse, um mögliche Fehlannahmen zu korrigieren. Auf einer Testfahrt durch Immendingen funktionierte die Fußgängererkennung sehr zuverlässig. Kam es zu Fehldetektionen, wie bei Menschen auf Werbeplakaten, wurde diese unmittelbar wieder verworfen. Auch Fahrradfahrer, verdeckte oder sitzende Personen wurden gut erkannt.

Objekterkennung bei Lidar und Radar

Eine solche Klassifizierung gibt es jedoch nicht nur für Kamerabilder. Auch die Lidaraufnahmen werden durch neuronale Netze geschickt, die Objekte klassifizieren sollen. Das ist deutlich schwieriger, weil selbst teure Laserscanner nur eine Auflösung von 128 Zeilen in der Vertikalen und 0,2 Grad in der Horizontalen haben. Das heißt, ein 360 Grad-Lidar kommt pro Rundlauf theoretisch auf maximal 230.400 Datenpunkte, die neben der Entfernungsangabe noch die Intensität der Reflexion messen. Letzteres ist hilfreich, um beispielsweise reflektierende Verkehrsschilder oder Autos zu identifizieren. Nach Angaben der Entwickler lassen sich auf diese Weise ebenfalls semantische 3D-Bilder erzeugen, die Objekte klassifizieren.

Das ist inzwischen auch bei Radar-Aufnahmen gut möglich. Daimler und Bosch haben nach eigenen Angaben inzwischen 100 Millionen Radarpunkte klassifiziert, mit denen die neuronalen Netze für die Auswertung der Aufnahmen trainiert würden. Natürlich mit Hilfe von Studenten. Radarsensoren haben den Vorteil, dass sie wegen des Doppler-Effekts unmittelbar die Geschwindigkeit der detektierten Objekte messen können. Zudem liefern Radare auch bei schlechten Wetterbedingungen wie Schnee und Regen zuverlässige Aufnahmen.

Fusion der Sensordaten recht langsam

Doch nicht nur die Klassifikation der Daten ist aufwendig. Schließlich müssen die Verkehrssituationen erst einmal in der Realität mit den unterschiedlichen Sensortypen aufgenommen werden. Einen deutlichen Vorteil hat in diesem Fall der Elektroautohersteller Tesla. Dieser kann bei Bedarf von den Autos seiner Kunden die erforderlichen Aufnahmen abrufen und analysieren. Eine solch große Flotte an unfreiwilligen Testfahrern haben Daimler und Bosch jedoch nicht zur Verfügung.

Sind die neuronalen Netze entsprechend angelernt worden, können sie beliebige Verkehrssituationen auswerten. Die semantischen Aufnahmen der Sensortypen werden dann an die sogenannte Sensordatenfusion weitergeleitet, die ein kohärentes Umgebungsbild erzeugen soll. Hier können sich die Daten gegenseitig plausibilisieren. Dabei gibt es keinen Sensortyp, der gegenüber den anderen Vorrang hat.

Alle 100 Millisekunden ein Umgebungsbild

Neben den Daten hochpräziser 3D-Karten fließen noch Mikrofonaufnahmen, Ultraschallsensoren sowie die Daten zur Bewegung und Lokalisierung des Fahrzeugs in die Fusion ein. Hierbei ist entscheidend, die unterschiedlichen Aufnahme- und Auswertungsfrequenzen der einzelnen Sensoren zu synchronisieren. Den Entwicklern zufolge ist das System in der Lage, alle 100 Millisekunden ein fusioniertes Umgebungsbild zu erzeugen.

Das erscheint lange, denn die Sensoren arbeiten durchaus mit höheren Frequenzen als zehn Hertz . Selbst im städtischen Verkehr kann ein Auto in diesem Zeitraum die Strecke von mehr als einem Meter zurücklegen, auf der Autobahn wären es sogar mehrere Meter. Vor diesem Hintergrund erscheint es wenig nachvollziehbar, warum die Industrie Latenzzeiten von einer Millisekunde beim neuen Mobilfunkstandard 5G fordert, um möglichst schnell Daten zwischen Autos oder zwischen Auto und Infrastruktur übertragen zu können. Zumal beim aktuellen Sensorkonzept die vernetzte Kommunikation nicht einbezogen wird. Selbst die hochpräzise Karte spielt für die Entwickler nur eine untergeordnete Rolle.

Vorsicht bei unbekannten Objekten

Trotz aller Fortschritte: Bestimmte Einschränkungen bleiben weiterhin bestehen. So soll das System zwar in der Lage sein, ungewöhnliche Objekte auf der Fahrbahn zu erkennen und als Gefahrenquelle zu identifizieren. Franke hat sich eigens einen Stoffhund gekauft, um seine Systeme zu testen. Doch das autonome Auto wird wohl noch nicht entscheiden können, über eine leere Plastiktüte auf der Straße zu fahren. Ein Mensch könnte hingegen aufgrund seiner Erfahrung eher einschätzen, ob ein solches Objekt gefahrlos überfahren werden kann oder ob man ihm besser ausweichen sollte.

Zudem ist ein Mensch in der Lage, ein Objekt auch dann richtig zu erkennen, wenn er es vorher noch nie im Straßenverkehr gesehen hat. Und das in der Regel völlig unabhängig davon, ob eine Kuh auf der Autobahn steht oder, was wahrscheinlicher ist, auf einem Feldweg. Egal wie viele Studenten auch Bilder labeln: Früher oder später dürfte das autonome Auto von einer Situation überfordert und auf einen entfernten Aufpasser angewiesen sein. Solange das nicht so häufig passiert, wie Google Translate falsch übersetzt, könnte die neue Technik dennoch erfolgreich funktionieren.


Relevante Themen