Skip to ContentSkip to Navigation
Over ons Faculty of Science and Engineering Promoties

Towards real-world deployment of reinforcement learning

Case Studies in Traffic Signal Control and Production Scheduling
Promotie:Dhr. A. (Arthur) Müller
Wanneer:28 april 2025
Aanvang:14:30
Promotor:H. (Herbert) Jaeger, Prof
Copromotor:M. (Matthia) Sabatelli, PhD
Waar:Academiegebouw RUG
Faculteit:Science and Engineering
Towards real-world deployment of reinforcement
learning

Reinforcement learning in drie echte casussen

Reinforcement Learning (RL) heeft in de afgelopen decennia aanzienlijke wetenschappelijke belangstelling gekregen. De daadwerkelijke toepassing van RL op industriële problemen blijft echter beperkt, aangezien veel studies zich richten op vereenvoudigde probleemstellingen of RL-specifieke benchmarks die niet direct overdraagbaar zijn naar realistische scenario’s. In zijn proefschrift neemt Arthur Müller deze kennislacune onder de loep door RL-oplossingen te ontwikkelen voor drie concrete “real-world” problemen. 

De eerste casus richt zich op de toepassing van RL voor het besturen van een verkeerslichtsysteem in Lemgo, Duitsland. Müller heeft een framework ontwikkeld dat een realistisch simulatiemodel omvat, evenals een veiligheidslaag die naleving van alle wettelijke voorschriften garandeert. Daarnaast integreert hij deze veiligheidslaag dieper in RL-algoritmen, wat leidt tot snellere training en verbeterde prestaties. Bovendien verkent hij methoden om de ‘reality gap’ te overbruggen die ontstaat door discrepanties tussen het simulatiemodel en zijn fysieke tegenhanger.

De tweede en derde casus betreffen de ontwikkeling van RL-gebaseerde oplossingen voor productieschema-optimalisatie in respectievelijk de huishoudelijke apparaten- en automobielindustrie. In de tweede casus hanteert Müller RL als een constructieve heuristiek, waarbij de oplossing stapsgewijs wordt opgebouwd. Om het probleem voor RL oplosbaar te maken, integreert Müller domeinkennis via technieken zoals actie-maskering en curriculum learning. In de derde casus onderzoekt hij hoe RL ingezet kan worden als een verbeteringsheuristiek, waarbij een suboptimale initiële oplossing door middel van iteratieve kleine aanpassingen door RL wordt geoptimaliseerd.

Door middel van deze casestudies demonstreert Müller in zijn proefschrift hoe RL kan worden aangepast en geïntegreerd met domeinkennis om aan de specifieke eisen en beperkingen van real-world omgevingen te voldoen.

Arthur Müller voerde zijn onderzoek uit bij het Bernoulli Institute for Mathematics, Computer Science and Artificial Intelligence, afdeling Kunstmatige Intelligentie. Hij vervolgt zijn loopbaan als research assistant bij Fraunhofer IOSB-INA.