干货分享 | 赛尔译文——Dropout分析 -控件新闻-慧都网

干货分享 | 赛尔译文——Dropout分析

转帖|使用教程|编辑：龚雪|2017-03-20 16:42:37.000|阅读 786 次

概述：用Dropout解决深度神经网络中过拟合问题！

过拟合(Overfitting)是深度神经网络(DNN)中的一个重要的问题：该模型学习仅对训练集合进行分类，使其自身适应于训练示例，而不是学习能够对通用实例进行分类的决策边界。近些年，研究者们已经提出了许多过拟合问题的解决方案，其中，Dropout因为其简明且以经验为基础的良好结果而占据主流。

Dropout

Dropout的视觉表示，如上图所示。图(a)是应用Dropout之前的神经网络，图(b)是应用Dropout之后同样的神经网络。参数经过学习后，左边的网络是在训练和测试时使用同样的网络结构。

Dropout的思想是训练DNNs的整体然后平均整体的结果，而不是训练单个DNN。DNNs以概率p丢弃神经元，因此保持其它神经元概率为q=1-p。当一个神经元被丢弃时，无论其输入及相关的学习参数是多少，其输出都会被置为0。丢弃的神经元在训练阶段的前向传播和后向传播阶段都不起作用：因为这个原因，每当一个单一的神经元被丢弃时，训练阶段就好像是在一个新的神经网络上完成。

引用自Dropout作者：

在标准神经网络中，每个参数接收的导数表明其应该如何变化才能使最终损失函数降低，并给定所有其它神经网络单元的状态。因此神经单元可能以一种可以修正其它神经网络单元的错误的方式进行改变。而这就可能导致复杂的共适应(co-adaptations)。由于这些共适应现象没有推广到未见的数据，将导致过拟合。我们假设对每个隐藏层的神经网络单元，Dropout通过使其它隐藏层神经网络单元不可靠从而阻止了共适应的发生。因此，一个隐藏层神经元不能依赖其它特定神经元去纠正其错误。

简而言之：Dropout在实践中表现良好，是因为它在训练阶段阻止了神经元的共适应。现在我们对Dropout有了直观的想法，让我们进行更深层次的分析。

Dropout是如何工作的？

如前所述，Dropout以概率p关闭神经元，相应的，以大小为q=1-p的概率开启其他神经元。每个单个神经元有同等概率被关闭。这意味着：

给定

h(x) = xW + b 是di的一个线性投影(di是dh中的一个维度输入，dh是维度输出空间);
a(h)是一个激活函数。

对Dropout的应用建模是可行的，仅仅对于训练阶段来说，给定的投影作为一个修改的激活函数：

大数据

其中，大数据

是伯努利向量Xi的一个dh维的向量。

一个伯努利随机变量有以下概率的质量分布：

大数据

其中，k是可能的输出结果。

显然，这个随机变量完美的模拟了在单个神经元上Dropout的过程。事实上，神经元被以概率 p = P(k=1) 被关闭，否则保持不变。

它可以看作Dropout在第i个神经元上的应用：

大数据

其中，P(Xi=0)=p.

因为在训练阶段，一个神经元以概率q保持;在测试阶段，我们必须模拟在训练阶段使用的神经网络的整体的行为。为此，作者建议在测试阶段将激活函数以q为比例系数进行缩放，以便将训练阶段产生的预期输出作为测试阶段使用的单个输出。因此：

训练阶段：

大数据

测试阶段：

大数据

反向Dropout

一个略有不同的方法是使用反向Dropout(Inverted Dropout)。该方法包括在训练阶段缩放激活函数，从而使得其测试阶段保持不变。比例因子是保持概率的倒数：

大数据因此，

训练阶段：

大数据

测试阶段：

大数据

反向Dropout有助于只定义一次模型并且只改变了一个参数(保持/丢弃概率)以使用同一模型进行训练和测试。相反，直接Dropout，迫使你在测试阶段修改网络。因为如果你不乘以比例因子q，神经网络的输出将产生更高的相对于连续神经元所期望的值(因此神经元可能饱和)：这就是为什么反向Dropout是更加常见的实现方式。