Chapter 21: Reinforcement Learning

Policy Gradient Theorem and Actor-Critic Architectures advanced

How direct policy optimization turns delayed, noisy rewards into learning signals for continuous trading actions.

Already have an account? Sign in

References

Understanding The Virtue of Complexity

Bryan T. Kelly, Semyon Malamud (2025)

Actor-Critic Algorithms

Vijay Konda, John Tsitsiklis (1999) — MIT Press

Recent Advances in Reinforcement Learning in Finance

Ben Hambly, Renyuan Xu, Huining Yang (2023)

Misspecification-Robust Inference in Linear Asset-Pricing Models with Irrelevant Risk Factors

Nikolay Gospodinov, Raymond Kan, Cesare Robotti (2014) — The Review of Financial Studies

Proximal Policy Optimization Algorithms

John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, Oleg Klimov (2017)

Policy Gradient Methods for Reinforcement Learning with Function Approximation

Richard S Sutton, David A. McAllester, Satinder P. Singh, Yishay Mansour, S. A. Solla, T. K. Leen, K. Müller (2000) — MIT Press

Chapter