《解析深度学习：语音识别实践》读书笔记-高级模型初始化技术4

发布时间: 2021-10-15 20:38:13 来源: 励志妙语作者: Alpha猫栏目: 读后感点击: 103

本文学习的几种方法都为常见的预训练方法，且都被证明在特定的训练场景下是很有效的。鉴别性预训练DNN参数完全可以使用鉴别性预训练（...

本文学习的几种方法都为常见的预训练方法，且都被证明在特定的训练场景下是很有效的。

鉴别性预训练

DNN参数完全可以使用鉴别性预训练（DPT）来鉴别性地初始化。通过逐层BP，首先使用标注鉴别性训练一个单隐藏层的DNN，直到全部收敛。接着在 v_1 层和输出层之间插入一个新的随机初始化的隐藏层，再次，鉴别性训练整个网络到完全收敛，这样继续知道得到所需数量的隐藏层。

与逐层贪心训练不同，逐层贪心训练只是更新新添加的隐藏层，而在逐层BP中，每次新的隐藏层加入时所有的层都联合跟新。

而逐层BP的一个缺点是一些隐藏层节点可能在训练收敛后会处于饱和状态，当心的隐藏层加入时很难对其进行进一步更新。而我们可以通过每次新的隐藏层加入时，不让模型训练到收敛来缓解。一种方法是使用要达到收敛所用数据的 $frac{1}{L}$ 来执行DPT，其中是最终模型的总层数。在DPT中，其目标是调整权重使其接近一个较好的局部最优点。它不具有生成性DBN预训练中的正则化效果。因此，DPT最好在可获得大量训练数据的时候使用。

混合预训练

生成性预训练和鉴别性预训练各有缺点。

减轻过拟合

最小化目标函数

因此可以采用一种混合预训练的方法。

一个典型的混合预训练准则是：

$J_{HYB}left(W,b;Sright)=J_{DISC}left(W,b;Sright)+alpha J_{GEN}left(W,b;Sright )$

其中， alpha 是鉴别性准则 $J_{DISC}left(W,b;Sright)$ 以及生成性准则 $J_{GEN}left(W,b;Sright)$ 的一个插值。

对于分类任务，鉴别性准则可以是交叉熵，对于回归任务，鉴别性准则可以是最小均方误差；对于RBM，生成性准则可以是负对数似然度，对于自动编码器，生成性准则可以是重建误差。

采用丢弃法的预训练

这个方法在前面已接触过。丢弃法（dropout）可以作为一种改善DNN泛化能力的技术。可以把dropout视为一种通过随机丢弃神经元来减小DNN容量的方法。

与不使用dropout的DNN相比，dropout能够生成更平滑的目标平面。由于与一个更加陡峭的目标平面相比，一个更加平滑的目标平面具有较少的劣性局部最优点，这样较不容易陷入一个非常差的局部最优点。我们可以使用dropout预训练快速找到一个较好的起始点，然后不使用dropout模型来精细调整DNN。