LB's Home

Coding - Thinking


  • 首页

  • 分类

  • 关于

  • 标签

  • 站点地图

【机器学习】为什么要做Batch Normalization?

发表于 2017-11-03 | 分类于 【机器学习】

之前介绍过梯度爆炸,就是说在误差反向传播的过程中,由于激活函数的导数值小于1,链式法则导致传过来的偏导越来越小,结果前面几层网络的权值得不到更新。

现在介绍的批量归一化是干什么的呢?
当f(xw+b),由于激活函数一般在正负一之间,当w和b固定的时候,x较小的时候,y=wx+b也比较小,当x较大的时候,y就会处在饱和区。对于大值区分不出来。这就是NN遇到的问题,解决的办法就是批量归一化。

阅读全文 »

【强化学习】策略梯度-Policy Gradient

发表于 2017-11-02 | 分类于 【强化学习】
阅读全文 »

【硬件设备】Jetson TX2深度学习库安装

发表于 2017-11-01 | 分类于 【硬件设备】
阅读全文 »

【强化学习】算法实践-DQN

发表于 2017-11-01 | 分类于 【强化学习】
阅读全文 »

【生产工具】vim命令

发表于 2017-10-31 | 分类于 【生产工具】

引言

阅读全文 »

【算法分析】随机数生成器

发表于 2017-10-30 | 分类于 【算法分析】

0 引言

随机数生成器主要分为三类:

  1. 真随机数生成器
  2. 伪随机数生成器
  3. 随机数表法
阅读全文 »

【强化学习】算法实践-GridWorld Sarsa Sarsa($\lambda$)

发表于 2017-10-28 | 分类于 【强化学习】
阅读全文 »

【机器学习】BP算法从推导到实现

发表于 2017-10-27 | 分类于 【机器学习】
阅读全文 »

【强化学习】算法实践-OpenAI gym

发表于 2017-10-26 | 分类于 【强化学习】

0 引言

OpenAI gym是当下非常热门的强化学习库,使用者只需要定义环境就可以测试自己的强化学习算法。
本文主要介绍如何在ubuntu 16.04上配置gym开发环境,gym的建模思想,以及自己动手搭建一个gym环境。

阅读全文 »

【强化学习】算法实践-Small GridWorld

发表于 2017-10-26 | 分类于 【强化学习】

0 引言

Small GridWorld问题是David Silver在强化学习课程中举的一个例子,该例子很好的描述了有模型的策略评估和策略改进方法。

状态空间:16个位置,其中0和15代表终止状态
动作空间:上(n)、下(s)、左(w)、右(e)
状态转移:离开格子的动作,保持原状态;其他动作,100%转移到相应的状态。
奖励函数:终止状态奖励为0,其他状态奖励为-1
折扣因子:$\gamma=1$

当前策略:$\pi(n\mid \cdot)=\pi(s\mid \cdot)=\pi(w\mid \cdot)=\pi(e\mid \cdot)=\frac{1}{4}$

阅读全文 »
1234…6
LB

LB

Make Robot Feel The World

54 日志
15 分类
39 标签
GitHub Weibo
Links
  • OverLeaf
  • LeetCode
  • Kaggle
  • Tianchi
© 2017 LB
由 Hexo 强力驱动
主题 - NexT.Pisces
本站总访问量     您是第个来到的小伙伴