
0 引言
策略梯度根据策略为softmax策略或者高斯策略,可以解决离散动作空间或者连续动作空间的问题。当使用softmax策略时,网络便会根据状态输出执行每个动作的概率,这时候可以直接选择最大概率的动作;而当使用高斯策略时,网络会根据状态输出执行每个动作的概率分布。
1 离散动作空间
离散动作空间的例子有很多,比如说CartPole、MountainCar或者PuckWorld等。这些例子的特点是状态空间连续、动作空间离散。
为了解决这个问题,首先定义策略梯度类。
|
|
然后就是利用策略梯度测试环境的代码:
|
|
2 连续动作空间
使用策略梯度的一个主要目的就是解决连续动作空间的问题。那么首先要找一个连续动作空间的问题。
参考文献
[1] Morvan 强化学习教程 策略梯度