0 引言
Small GridWorld问题是David Silver在强化学习课程中举的一个例子,该例子很好的描述了有模型的策略评估和策略改进方法。
状态空间:16个位置,其中0和15代表终止状态
动作空间:上(n)、下(s)、左(w)、右(e)
状态转移:离开格子的动作,保持原状态;其他动作,100%转移到相应的状态。
奖励函数:终止状态奖励为0,其他状态奖励为-1
折扣因子:$\gamma=1$
当前策略:$\pi(n\mid \cdot)=\pi(s\mid \cdot)=\pi(w\mid \cdot)=\pi(e\mid \cdot)=\frac{1}{4}$
1 值迭代实现
注:以下代码来自[1]
结果:
0.00 -14.00 -20.00 -22.00
-14.00 -18.00 -20.00 -20.00
-20.00 -20.00 -18.00 -14.00
-22.00 -20.00 -14.00 0.00
问题:当迭代运行到第三步的时候,已经达到最优策略,但是还没有达到最优状态值函数。
参考文献
[1] 叶强, David Silver强化学习公开课中文讲解及实践, 知乎专栏
[2] David Silver, reinforcement learning lecture 2 and 3