《解析深度学习:语音识别实践》读书笔记-高级模型初始化技术4

发布时间: 2021-10-15 20:38:13 来源: 励志妙语 栏目: 读后感 点击: 103

本文学习的几种方法都为常见的预训练方法,且都被证明在特定的训练场景下是很有效的。鉴别性预训练DNN参数完全可以使用鉴别性预训练(...

《解析深度学习:语音识别实践》读书笔记-高级模型初始化技术4

本文学习的几种方法都为常见的预训练方法,且都被证明在特定的训练场景下是很有效的。

鉴别性预训练

DNN参数完全可以使用鉴别性预训练(DPT)来鉴别性地初始化。通过逐层BP,首先使用标注鉴别性训练一个单隐藏层的DNN,直到全部收敛。接着在 v_1 层和输出层之间插入一个新的随机初始化的隐藏层,再次,鉴别性训练整个网络到完全收敛,这样继续知道得到所需数量的隐藏层。

逐层贪心训练不同,逐层贪心训练只是更新新添加的隐藏层,而在逐层BP中,每次新的隐藏层加入时所有的层都联合跟新。

而逐层BP的一个缺点是一些隐藏层节点可能在训练收敛后会处于饱和状态,当心的隐藏层加入时很难对其进行进一步更新。而我们可以通过每次新的隐藏层加入时,不让模型训练到收敛来缓解。一种方法是使用要达到收敛所用数据的 frac{1}{L} 来执行DPT,其中 L 是最终模型的总层数。在DPT中,其目标是调整权重使其接近一个较好的局部最优点。它不具有生成性DBN预训练中的正则化效果。因此,DPT最好在可获得大量训练数据的时候使用。

混合预训练

生成性预训练和鉴别性预训练各有缺点。

    生成性预训练没有和任务特定的目标函数绑定,它有助于减轻过拟合,不保证有助于鉴别性的模型精细化调整;鉴别性预训练直接最小化目标函数,但可能导致低层权重向最终目标调整得过多,忽略了即将添加的隐藏层。

因此可以采用一种混合预训练的方法。

一个典型的混合预训练准则是:

J_{HYB}left(W,b;Sright)=J_{DISC}left(W,b;Sright)+alpha J_{GEN}left(W,b;Sright )

其中, alpha 是鉴别性准则 J_{DISC}left(W,b;Sright) 以及生成性准则 J_{GEN}left(W,b;Sright) 的一个插值。

对于分类任务,鉴别性准则可以是交叉熵,对于回归任务,鉴别性准则可以是最小均方误差;对于RBM,生成性准则可以是负对数似然度,对于自动编码器,生成性准则可以是重建误差

采用丢弃法的预训练

这个方法在前面已接触过。丢弃法(dropout)可以作为一种改善DNN泛化能力的技术。可以把dropout视为一种通过随机丢弃神经元来减小DNN容量的方法。

与不使用dropout的DNN相比,dropout能够生成更平滑的目标平面。由于与一个更加陡峭的目标平面相比,一个更加平滑的目标平面具有较少的劣性局部最优点,这样较不容易陷入一个非常差的局部最优点。我们可以使用dropout预训练快速找到一个较好的起始点,然后不使用dropout模型来精细调整DNN。

Reference

[1]《解析深度学习:语音识别实践》,俞栋,邓力著.

本文标题: 《解析深度学习:语音识别实践》读书笔记-高级模型初始化技术4
本文地址: http://www.lzmy123.com/duhougan/159691.html

如果认为本文对您有所帮助请赞助本站

支付宝扫一扫赞助微信扫一扫赞助

  • 支付宝扫一扫赞助
  • 微信扫一扫赞助
  • 支付宝先领红包再赞助
    声明:凡注明"本站原创"的所有文字图片等资料,版权均属励志妙语所有,欢迎转载,但务请注明出处。
    看书是否应该写读书笔记《探寻独角兽》读后感
    Top