CAS - RST - Lehrstuhl für Regelungssystemtechnik

Entwicklung einer hybriden, lernfähigen Entscheidungsstrategie für das automatisierte Fahren

Ziel des Forschungsvorhabens

Ziel des Forschungsvorhabens ist die Entwicklung einer neuartigen Entscheidungsstrategie, die auf die Nutzung hochgenauer Kartendaten verzichtet und zudem lernfähig ist. Die nebenstehende Abbildung gibt einen Überblick über die vorgeschlagene Gesamtarchitektur. Auf Basis von frei verfügbaren Kartendaten wird eine statische, verkehrsfreie Routenplanung durchgeführt. Eine verbesserte Positionsschätzung wird durch die Nutzung von Deep Learning erreicht. Das Umfeld wird mittels Sensorik erfasst und interpretiert. Für die Entscheidungsfindung werden zunächst mögliche Manöver identifiziert auf Basis derer mittels maschinellen Lernverfahrern eine Auswahl getroffen wird. Das ausgewählte Manöver wird schließlich im Rahmen der Trajektorienplanung optimiert und durch eine Regelung im Zusammenspiel mit der Fahrzeugaktorik umgesetzt.

Hybride Entscheidungsstrategie

Die Anforderungen der Automobilindustrie sehen vor, dass Entscheidungen von automatisierten Fahrzeugen nachvollziehbar, interpretierbar und überprüfbar sind. Häufig kommen daher deterministische Verfahren zur Entscheidungsfindung zum Einsatz. Verfahren der künstlichen Intelligenz weisen große Potenziale auf, jedoch ist deren Überprüfung schwierig. Es wird daher ein hybrider Ansatz vorgeschlagen, der die Vorteile beider Verfahren verknüpft. Mittels maschinellem Lernens wird simulativ eine Entscheidungsstrategie erlernt. Dazu kommt das Reinforcement Learning zum Einsatz. Durch Nutzung dieses Werkzeuges in Kombination mit einer Erreichbarkeitsanalyse und einer Trajektorienplanung wird das Online-Flotten-Lernen ermöglicht.

Bewertung von Entscheidungen und Anbindung an Trajektorienplanung

Von der hybriden Entscheidungsstrategie werden Manöver vorgeschlagen. Die Vorschläge basieren auf der statischen Vorplanung, den spurdiskreten Kosten sowie dem Umfeld des Ego-Fahrzeuges. Um das Online-Flotten-Lernen zu ermöglichen, ist es notwendig ein Belohnungssignal für den Agenten bereitzustellen. Für jedes vorgeschlagene Manöver wird dazu eine Trajektorie geplant. Zudem wird eine Erreichbarkeitsanalyse durchgeführt. Diese Analyse basiert auf den prädizierten Trajektorien anderer Verkehrsteilnehmer sowie der geplanten Trajektorie des Ego-Fahrzeuges. Ebenso kann die Erreichbarkeitsanalyse und Bewertung von einem Fahrer durchgeführt werden.

Mit dem Auto

Mit Bus und Bahn

Die H-Bahn

Mit dem Flugzeug

Lageplan