Doch wie lernt ein RoboMaster, als Fahrzeugflotte zu agieren und sich gleichzeitig auf unvorhersehbare Hindernisse einzustellen? Die Antwort liegt im Maschinellen Lernen, genauer gesagt im Deep Reinforcement Learning (Deep RL). Im Fall der RoboMaster bedeutet dies, dass sie in einer speziell für sie entwickelten Simulation trainiert werden. Während des Trainings erhalten die Roboter Belohnungen für gute Aktionen und Strafen für schlechte. Beispielsweise erhalten sie den Wert 1, wenn sie ihrem Ziel näherkommen, und den Wert –1, wenn sie sich davon entfernen. Für das Erreichen des Ziels erhalten sie einen besonders hohen Wert und einen entsprechend niedrigen, wenn sie beispielsweise gegen eine Wand fahren. Das neuronale Netz (die Künstliche Intelligenz (KI)) lernt aus diesen Belohnungen und optimiert sein Verhalten in den verschiedenen Trainingsszenarien, um die Belohnung zu maximieren. »Man kann sich das wie bei einem Videospiel vorstellen, bei dem es darum geht, möglichst viele Punkte zu machen und keine Leben zu verlieren«, erklärt Christian Jestel vom Fraunhofer IML, der die Simulation geschrieben hat.