Analyse von „Reinforcement Studying“ von Richard S. Sutton mit benutzerdefinierten Python-Implementierungen, Episode V
In unserem vorherigen Beitrag haben wir die Einführungsreihe zu grundlegenden Techniken des Reinforcement Studying (RL) abgeschlossen, indem wir uns mit Temporal-Distinction (TD)-Lernen beschäftigt haben. TD-Methoden vereinen die Stärken von Dynamic Programming (DP) und Monte Carlo (MC)-Methoden und nutzen ihre besten Eigenschaften, um einige der wichtigsten RL-Algorithmen wie Q-Studying zu bilden.
Aufbauend auf dieser Grundlage geht dieser Beitrag näher darauf ein n-stufiges TD-Lernenein vielseitiger Ansatz, der in Kapitel 7 von Suttons Buch (1) eingeführt wurde. Diese Methode schließt die Lücke zwischen klassischen TD- und MC-Techniken. N-Schritt-Methoden verwenden wie TD Bootstrapping (unter Nutzung früherer Schätzungen), beziehen aber auch die nächste ein n
Belohnungen, die eine einzigartige Mischung aus kurzfristigem und langfristigem Lernen bieten. In einem zukünftigen Beitrag werden wir dieses Konzept noch weiter verallgemeinern Berechtigungsspuren.
Wir verfolgen einen strukturierten Ansatz, beginnend mit dem Vorhersageproblem bevor Sie umziehen Kontrolle. Unterwegs werden wir:
- Einführen N-Stufen-Sarsa,
- Erweitern Sie es auf Off-Coverage-Lernen,
- Entdecken Sie die n-stufiger BaumsicherungsalgorithmusUnd
- Präsentieren Sie eine verbindende Perspektive mit n-stufiges Q(σ).
Wie immer finden Sie den gesamten zugehörigen Code auf GitHub. Lass uns eintauchen!