fbpx
维基百科

梯度消失问题

梯度消失问题(Vanishing gradient problem)是一种机器学习中的难题,出現在以梯度下降法反向传播训练人工神經網路的時候。在每次訓練的迭代中,神经网路权重的更新值与误差函数偏導數成比例,然而在某些情况下,梯度值会几乎消失,使得权重无法得到有效更新,甚至神經網路可能完全无法继续训练。舉個例子來說明問題起因,一個传统的激勵函数双曲正切函数,其梯度值在 (-1, 1)范围内,反向传播以链式法则来计算梯度。

這樣做的效果,相当于在n層網路中,将n个這些小数字相乘來計算“前端”層的梯度,这就使梯度(误差信号)随着n呈指數遞減,导致前端層的訓練非常緩慢。

反向傳播使研究人員從頭開始訓練監督式深度人工神經網路,最初收效甚微。 1991年賽普·霍克賴特(Hochreiter)的畢業論文[1][2]正式確認了“梯度消失問題”失敗的原因。梯度消失問題不僅影響多層前饋網絡[3]還影響循環網路。[4]循環網路是通過將前饋網路深度展開來訓練,在網路處理的輸入序列的每個時間步驟中,都會產生一個新的層。

當所使用的激勵函數之導數可以取較大值時,則可能會遇到相關的梯度爆炸問題(exploding gradient problem)

解決方案

多級層次結構

長短期記憶

更快的硬體

殘差網路(Residual Networks,ResNets)

其他的激活函數

其他

參考文獻

  1. ^ S. Hochreiter. Untersuchungen zu dynamischen neuronalen Netzen. Diploma thesis, Institut f. Informatik, Technische Univ. Munich, 1991.
  2. ^ S. Hochreiter, Y. Bengio, P. Frasconi, and J. Schmidhuber. Gradient flow in recurrent nets: the difficulty of learning long-term dependencies. In S. C. Kremer and J. F. Kolen, editors, A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press, 2001.
  3. ^ Goh, Garrett B.; Hodas, Nathan O.; Vishnu, Abhinav. Deep learning for computational chemistry. Journal of Computational Chemistry. 2017-06-15, 38 (16): 1291–1307. PMID 28272810. arXiv:1701.04503 . doi:10.1002/jcc.24764 (英语). 
  4. ^ Pascanu, Razvan; Mikolov, Tomas; Bengio, Yoshua. On the difficulty of training Recurrent Neural Networks. 2012-11-21. arXiv:1211.5063  [cs.LG]. 

梯度消失问题, 此條目可参照英語維基百科相應條目来扩充, 若您熟悉来源语言和主题, 请协助参考外语维基百科扩充条目, 请勿直接提交机械翻译, 也不要翻译不可靠, 低品质内容, 依版权协议, 译文需在编辑摘要注明来源, 或于讨论页顶部标记, href, template, translated, page, html, title, template, translated, page, translated, page, 标签, vanishing, gradient, problem, 是一种机器学习中的难题, . 此條目可参照英語維基百科相應條目来扩充 若您熟悉来源语言和主题 请协助参考外语维基百科扩充条目 请勿直接提交机械翻译 也不要翻译不可靠 低品质内容 依版权协议 译文需在编辑摘要注明来源 或于讨论页顶部标记 a href Template Translated page html title Template Translated page Translated page a 标签 梯度消失问题 Vanishing gradient problem 是一种机器学习中的难题 出現在以梯度下降法和反向传播训练人工神經網路的時候 在每次訓練的迭代中 神经网路权重的更新值与误差函数的偏導數成比例 然而在某些情况下 梯度值会几乎消失 使得权重无法得到有效更新 甚至神經網路可能完全无法继续训练 舉個例子來說明問題起因 一個传统的激勵函数如双曲正切函数 其梯度值在 1 1 范围内 反向传播以链式法则来计算梯度 這樣做的效果 相当于在n 層網路中 将n 个這些小数字相乘來計算 前端 層的梯度 这就使梯度 误差信号 随着n 呈指數遞減 导致前端層的訓練非常緩慢 反向傳播使研究人員從頭開始訓練監督式深度人工神經網路 最初收效甚微 1991年賽普 霍克賴特 Hochreiter 的畢業論文 1 2 正式確認了 梯度消失問題 失敗的原因 梯度消失問題不僅影響多層前饋網絡 3 還影響循環網路 4 循環網路是通過將前饋網路深度展開來訓練 在網路處理的輸入序列的每個時間步驟中 都會產生一個新的層 當所使用的激勵函數之導數可以取較大值時 則可能會遇到相關的梯度爆炸問題 exploding gradient problem 目录 1 解決方案 1 1 多級層次結構 1 2 長短期記憶 1 3 更快的硬體 1 4 殘差網路 Residual Networks ResNets 1 5 其他的激活函數 1 6 其他 2 參考文獻解決方案 编辑多級層次結構 编辑 長短期記憶 编辑 更快的硬體 编辑 殘差網路 Residual Networks ResNets 编辑 其他的激活函數 编辑 其他 编辑參考文獻 编辑 S Hochreiter Untersuchungen zu dynamischen neuronalen Netzen Diploma thesis Institut f Informatik Technische Univ Munich 1991 S Hochreiter Y Bengio P Frasconi and J Schmidhuber Gradient flow in recurrent nets the difficulty of learning long term dependencies In S C Kremer and J F Kolen editors A Field Guide to Dynamical Recurrent Neural Networks IEEE Press 2001 Goh Garrett B Hodas Nathan O Vishnu Abhinav Deep learning for computational chemistry Journal of Computational Chemistry 2017 06 15 38 16 1291 1307 PMID 28272810 arXiv 1701 04503 doi 10 1002 jcc 24764 英语 Pascanu Razvan Mikolov Tomas Bengio Yoshua On the difficulty of training Recurrent Neural Networks 2012 11 21 arXiv 1211 5063 cs LG 取自 https zh wikipedia org w index php title 梯度消失问题 amp oldid 71141154, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。