【机器学习】为什么要做Batch Normalization?

发表于 2017-11-03 | 分类于【机器学习】

之前介绍过梯度爆炸，就是说在误差反向传播的过程中，由于激活函数的导数值小于1，链式法则导致传过来的偏导越来越小，结果前面几层网络的权值得不到更新。

现在介绍的批量归一化是干什么的呢？
当f(xw+b)，由于激活函数一般在正负一之间，当w和b固定的时候，x较小的时候，y=wx+b也比较小，当x较大的时候，y就会处在饱和区。对于大值区分不出来。这就是NN遇到的问题，解决的办法就是批量归一化。

【强化学习】策略梯度-Policy Gradient

发表于 2017-11-02 | 分类于【强化学习】

发表于 2017-11-01 | 分类于【硬件设备】

发表于 2017-11-01 | 分类于【强化学习】

发表于 2017-10-31 | 分类于【生产工具】

发表于 2017-10-30 | 分类于【算法分析】

随机数生成器主要分为三类：

发表于 2017-10-28 | 分类于【强化学习】

发表于 2017-10-27 | 分类于【机器学习】

发表于 2017-10-26 | 分类于【强化学习】

OpenAI gym是当下非常热门的强化学习库，使用者只需要定义环境就可以测试自己的强化学习算法。
本文主要介绍如何在ubuntu 16.04上配置gym开发环境，gym的建模思想，以及自己动手搭建一个gym环境。

发表于 2017-10-26 | 分类于【强化学习】

Small GridWorld问题是David Silver在强化学习课程中举的一个例子，该例子很好的描述了有模型的策略评估和策略改进方法。

状态空间：16个位置，其中0和15代表终止状态
动作空间：上(n)、下(s)、左(w)、右(e)
状态转移：离开格子的动作，保持原状态；其他动作，100%转移到相应的状态。
奖励函数：终止状态奖励为0，其他状态奖励为-1
折扣因子：$\gamma=1$

当前策略：$\pi(n\mid \cdot)=\pi(s\mid \cdot)=\pi(w\mid \cdot)=\pi(e\mid \cdot)=\frac{1}{4}$