Policy Gradient Methods

Edit

Reinforcement Learning • 24 methods

Policy Gradient Methods try to optimize the policy function directly in reinforcement learning. This contrasts with, for example, Q-Learning, where the policy manifests itself as maximizing a value function. Below you can find a continuously updating catalog of policy gradient methods.

Methods

Add a Method

Method	Year	Papers
PPO Proximal Policy Optimization Algorithms	2017	629
DDPG Continuous control with deep reinforcement learning	2015	190
REINFORCE	1999	160
TD3 Addressing Function Approximation Error in Actor-Critic Methods	2018	90
TRPO Trust Region Policy Optimization	2015	71
A2C Asynchronous Methods for Deep Reinforcement Learning	2016	70
A3C Asynchronous Methods for Deep Reinforcement Learning	2016	48
Soft Actor Critic Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor	2018	45
MADDPG Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments	2017	33
DPG	2014	15
IMPALA IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures	2018	15
ACER Sample Efficient Actor-Critic with Experience Replay	2016	11
D4PG Distributed Distributional Deterministic Policy Gradients	2018	10
Soft Actor-Critic (Autotuned Temperature) Soft Actor-Critic Algorithms and Applications	2018	6
ACTKR Scalable trust-region method for deep reinforcement learning using Kronecker-factored approximation	2017	2
SVPG Stein Variational Policy Gradient	2017	2
MDPO Mirror Descent Policy Optimization	2020	2
NoisyNet-A3C Noisy Networks for Exploration	2017	1
Ape-X DPG Distributed Prioritized Experience Replay	2018	1
TayPO Taylor Expansion Policy Optimization	2020	1
Robust Predictable Control Robust Predictable Control	2021	1
Fisher-BRC Offline Reinforcement Learning with Fisher Divergence Critic Regularization	2021	1
myGym	2000	1

Policy Gradient Methods Edit

Methods Add a Method

Policy Gradient Methods

Edit

Methods

Add a Method