之前介绍过梯度爆炸,就是说在误差反向传播的过程中,由于激活函数的导数值小于1,链式法则导致传过来的偏导越来越小,结果前面几层网络的权值得不到更新。
现在介绍的批量归一化是干什么的呢?
当f(xw+b),由于激活函数一般在正负一之间,当w和b固定的时候,x较小的时候,y=wx+b也比较小,当x较大的时候,y就会处在饱和区。对于大值区分不出来。这就是NN遇到的问题,解决的办法就是批量归一化。
Coding - Thinking
之前介绍过梯度爆炸,就是说在误差反向传播的过程中,由于激活函数的导数值小于1,链式法则导致传过来的偏导越来越小,结果前面几层网络的权值得不到更新。
现在介绍的批量归一化是干什么的呢?
当f(xw+b),由于激活函数一般在正负一之间,当w和b固定的时候,x较小的时候,y=wx+b也比较小,当x较大的时候,y就会处在饱和区。对于大值区分不出来。这就是NN遇到的问题,解决的办法就是批量归一化。
OpenAI gym是当下非常热门的强化学习库,使用者只需要定义环境就可以测试自己的强化学习算法。
本文主要介绍如何在ubuntu 16.04上配置gym开发环境,gym的建模思想,以及自己动手搭建一个gym环境。
Small GridWorld问题是David Silver在强化学习课程中举的一个例子,该例子很好的描述了有模型的策略评估和策略改进方法。
状态空间:16个位置,其中0和15代表终止状态
动作空间:上(n)、下(s)、左(w)、右(e)
状态转移:离开格子的动作,保持原状态;其他动作,100%转移到相应的状态。
奖励函数:终止状态奖励为0,其他状态奖励为-1
折扣因子:$\gamma=1$
当前策略:$\pi(n\mid \cdot)=\pi(s\mid \cdot)=\pi(w\mid \cdot)=\pi(e\mid \cdot)=\frac{1}{4}$