Skip to ContentSkip to Navigation
Over ons Actueel Evenementen Promoties

Beyond value estimation: adaptive potential functions for reinforcement learning

Promotie:Y. (Yifei) Chen
Wanneer:15 april 2025
Aanvang:11:00
Promotors:prof. dr. L.R.B. (Lambert) Schomaker, J.S. (Jilles) Dibangoye, Prof
Waar:Academiegebouw RUG
Faculteit:Science and Engineering
Beyond value estimation: adaptive potential functions for
reinforcement learning

Reinforcement learning effectiever maken

Ondanks enorme vooruitgang op het gebied van reinforcement learning (RL)-algoritmen in het afgelopen decennium, zijn er nog steeds fundamentele beperkingen. Hoewel RL een effectief proces is in bijvoorbeeld menselijk leren, vereist de digitale tegenhanger uitgebreide training, die langzaam verloopt en gepaard gaat met aanzienlijke onzekerheid en variatie. Yifei Chen veronderstelt in haar proefschrift dat onrealistische schatting van waarde en nut van systeemtoestanden de kernoorzaak kan zijn. Zij richt zich daarom op het verbeteren van RL, door twee grote uitdagingen aan te pakken: onnauwkeurige waardeschatting en de afhankelijkheid van uitgebreide domeinkennis. Ze onderzocht het proces van waardeschatting, een kernaspect van RL, met twee belangrijke bijdragen:

1. Oplossen van de 'overschattings-bias' door een betere keuze voor leersnelheid: Chen onderzocht hoe de leersnelheid-parameter het overschatten van waarde in Q-learning beïnvloedt. Ze toont aan dat een over de leertijd afnemende leersnelheid de nauwkeurigheid van waardeschattingen en de trainingsprestaties verbetert, in diverse taakomgevingen.

2. Adaptive Potential Function (APF): Dit nieuwe mechanisme voor een fijnregeling van de beloningen ('reward shaping') versnelt het leren door gebruik te maken van de historie van gedragspogingen. APF kan worden geïntegreerd in RL-frameworks zoals Q-learning en actor-critic methoden, voor taken in discrete, continue en hoog-dimensionale toestandsruimten. Experimenten tonen de effectiviteit aan in doolhoven, robotbesturing en Atari-games.

Daarnaast verbetert een deep-learning gebaseerde encoder, W-Net, de prestaties van APF in hoog-dimensionale omgevingen door deze compact te representeren. Chen concludeert dat APF en W-Net nuttige bijdragen leveren aan reinforcement learning, met mogelijkheden voor bredere toepassing.

Yifei Chen voerde haar onderzoek uit bij het Bernoulli Institute for Mathematics, Computer Science and Artificial Intelligence, afdeling Kunstmatige Intelligentie, met financiering van het Chinese Scholarship Council. Ze vervolgt haar loopbaan als CERC Fellow bij de Commonwealth Scientific and Industrial Research Organisation (CSIRO).