fbpx
维基百科

正则化 (数学)

数学计算机科学中,尤其是在机器学习逆问题领域中,正则化(英语:regularization)是指为解决适定性问题过拟合而加入额外信息的过程。[1]

在机器学习和逆问题的优化过程中,正则项往往被加在目标函数当中。

概述

概括来讲,机器学习的训练过程,就是要找到一个足够好的函数 用以在新的数据上进行推理[2]为了定义什么是「好」,人们引入了损失函数的概念。一般地,对于样本 和模型 ,有预测值 。损失函数是定义在 上的二元函数 ,用来描述基准真相和模型预测值之间的差距。一般来说,损失函数是一个有下确界的函数;当基准真相和模型预测值足够接近,损失函数的值也会接近该下确界。

因此,机器学习的训练过程可以被转化为训练集 上的最小化问题。我们的目标是在泛函空间内,找到使得全局损失 最小的模型 

 

由于损失函数只考虑在训练集上的经验风险,这种做法可能会导致过拟合。为了对抗过拟合,我们需要向损失函数中加入描述模型复杂程度的正则项 ,将经验风险最小化问题转化为结构风险最小化。

 

这里, 称为目标函数,它描述模型的结构风险; 是训练集上的损失函数; 是正则项,描述模型的复杂程度; 是用于控制正则项重要程度的参数。正则项通常包括对光滑度向量空间范数上界的限制。[3] -范数是一种常见的正则项。

贝叶斯学派的观点英语Bayesian_interpretation_of_kernel_regularization看来,正则项是在模型训练过程中引入了某种模型参数的先验分布。

Lp正则项

所谓范数即是抽象之长度,通常意义上满足长度的三种性质:非负性、齐次性三角不等式

以函数的观点来看,范数是定义在 的函数;并且它和损失函数类似,也具有下确界。后一性质是由范数的非负性和齐次性保证的[4]。这一特性使得 -范数天然适合做正则项,因为目标函数仍可用梯度下降等方式求解最优化问题。 -范数作为正则项时被称为 -正则项。

L0和L1正则项

机器学习模型当中的参数,可形式化地组成参数向量,记为 。不失一般性,以线性模型为例:

 

由于训练集当中统计噪声的存在,冗余的特征可能成为过拟合的一种来源。这是因为,对于统计噪声,模型无法从有效特征当中提取信息进行拟合,故而会转向冗余特征。为了对抗此类过拟合现象,人们会希望让尽可能多的 为零。为此,最直观地,可以引入 -正则项

 

通过引入 -正则项,人们实际上是向优化过程引入了一种惩罚机制:当优化算法希望增加模型复杂度(此处特指将原来为零的参数 更新为非零的情形)以降低模型的经验风险(即降低全局损失)时,在结构风险上进行大小为 的惩罚。于是,当增加模型复杂度在经验风险上的收益不足 时,整个结构风险实际上会增大而非减小。因此优化算法会拒绝此类更新。

引入 -正则项可使模型参数稀疏化,以及使得模型易于解释。但 -正则项也有无法避免的问题:非连续、非凸、不可微。因此,在引入 -正则项的目标函数上做最优化求解,是一个无法在多项式时间内完成的问题。于是,人们转而考虑 -范数的最紧凸放松—— -范数,令

 

和引入 -正则项的情况类似,引入 -正则项是在结构风险上进行大小为 的惩罚,以达到稀疏化的目的。

 -正则项亦称LASSO-正则项。[5][6]

L2正则项

 
图中左侧是训练集,右侧是验证集。训练集和验证集数据均是由线性函数加上一定的随机扰动生成的。图中橙色直线是以线性模型拟合训练集数据得到模型的函数曲线;绿色虚线则是以15-阶多项式模型拟合训练数据得到模型的函数曲线。由此可見,儘管多项式模型在训练集上的误差小于线性模型,但在验证集上的误差则显著大于线性模型。此外,多项式模型为了拟合噪声点,在噪声点附近进行了高曲率的弯折。这说明多项式模型过拟合了训练集数据。

在发生过拟合时,模型的函数曲线往往会发生剧烈的弯折,这意味着模型函数在局部的切线之斜率非常高。一般地,函数的曲率是函数参数的线性组合或非线性组合。为了对抗此类过拟合,人们会希望使得这些参数的值相对稠密且均匀地集中在零附近。于是,人们引入了 -范数,作为 -正则项。令

 

于是有目标函数

 

於是對於參數 取偏微分

 

因此,在梯度下降时,参数 的更新

 

注意到 通常是介于 之间的数[7] -正则项会使得参数接近零,从而对抗过拟合。

 -正则项又称Tikhonov-正则项或Ridge-正则项。

提前停止

提前停止可看做是时间维度上的正则化。直觉上,随着迭代次数的增加,如梯度下降这样的训练算法倾向于学习愈加复杂的模型。在时间维度上进行正则化有助于控制模型复杂度,提升泛化能力。在实践中,提前停止一般是在训练集上进行训练,而后在统计上独立的验证集上进行评估;当模型在验证集上的性能不再提升时,就提前停止训练。最后,可在测试集上对模型性能做最后测试。

参考文献

  1. ^ Bühlmann, Peter; Van De Geer, Sara. Statistics for High-Dimensional Data. Springer Series in Statistics: 9. 2011. ISBN 978-3-642-20191-2. doi:10.1007/978-3-642-20192-9. If p > n, the ordinary least squares estimator is not unique and will heavily overfit the data. Thus, a form of complexity regularization will be necessary. 
  2. ^ Ron Kohavi; Foster Provost. Glossary of terms. Machine Learning. 1998, 30: 271–274 [2019-12-10]. (原始内容于2019-11-11). 
  3. ^ Bishop, Christopher M. Pattern recognition and machine learning Corr. printing. New York: Springer. 2007. ISBN 978-0387310732. 
  4. ^ 范数的非负性保证了范数有下界。当齐次性等式 中的 取零时可知,零向量的范数是零,这保证了范数有下确界。
  5. ^ Santosa, Fadil; Symes, William W. Linear inversion of band-limited reflection seismograms.. SIAM Journal on Scientific and Statistical Computing (SIAM). 1986, 7 (4): 1307–1330. doi:10.1137/0907087. 
  6. ^ Tibshirani, Robert. Regression Shrinkage and Selection via the lasso. Journal of the Royal Statistical Society. Series B (methodological) (Wiley). 1996, 58 (1): 267–88. JSTOR 2346178. 
  7. ^ 可通过恰当地调整学习率 与正则系数 来满足这一点。

外部链接

  • 谈谈   -正则项 (页面存档备份,存于互联网档案馆(中文)

正则化, 数学, 在数学与计算机科学中, 尤其是在机器学习和逆问题领域中, 正则化, 英语, regularization, 是指为解决适定性问题或过拟合而加入额外信息的过程, 在机器学习和逆问题的优化过程中, 正则项往往被加在目标函数当中, 目录, 概述, lp正则项, l0和l1正则项, l2正则项, 提前停止, 参考文献, 外部链接概述, 编辑概括来讲, 机器学习的训练过程, 就是要找到一个足够好的函数f, displaystyle, 用以在新的数据上进行推理, 为了定义什么是, 人们引入了损失函数的概念, . 在数学与计算机科学中 尤其是在机器学习和逆问题领域中 正则化 英语 regularization 是指为解决适定性问题或过拟合而加入额外信息的过程 1 在机器学习和逆问题的优化过程中 正则项往往被加在目标函数当中 目录 1 概述 2 Lp正则项 2 1 L0和L1正则项 2 2 L2正则项 3 提前停止 4 参考文献 5 外部链接概述 编辑概括来讲 机器学习的训练过程 就是要找到一个足够好的函数F displaystyle F 用以在新的数据上进行推理 2 为了定义什么是 好 人们引入了损失函数的概念 一般地 对于样本 x y displaystyle vec x y 和模型F displaystyle F 有预测值y F x displaystyle hat y F vec x 损失函数是定义在R R R displaystyle mathbb R times mathbb R to mathbb R 上的二元函数ℓ y y displaystyle ell y hat y 用来描述基准真相和模型预测值之间的差距 一般来说 损失函数是一个有下确界的函数 当基准真相和模型预测值足够接近 损失函数的值也会接近该下确界 因此 机器学习的训练过程可以被转化为训练集D displaystyle mathcal D 上的最小化问题 我们的目标是在泛函空间内 找到使得全局损失L F i D ℓ y i y i displaystyle L F sum i in mathcal D ell y i hat y i 最小的模型F displaystyle F F arg min F L F displaystyle F mathop text arg min F L F 由于损失函数只考虑在训练集上的经验风险 这种做法可能会导致过拟合 为了对抗过拟合 我们需要向损失函数中加入描述模型复杂程度的正则项W F displaystyle Omega F 将经验风险最小化问题转化为结构风险最小化 F arg min F Obj F arg min F L F g W F g gt 0 displaystyle F mathop text arg min F text Obj F mathop text arg min F bigl L F gamma Omega F bigr qquad gamma gt 0 这里 Obj F displaystyle text Obj F 称为目标函数 它描述模型的结构风险 L F displaystyle L F 是训练集上的损失函数 W F displaystyle Omega F 是正则项 描述模型的复杂程度 g displaystyle gamma 是用于控制正则项重要程度的参数 正则项通常包括对光滑度及向量空间内范数上界的限制 3 L p displaystyle L p 范数是一种常见的正则项 在贝叶斯学派的观点 英语 Bayesian interpretation of kernel regularization 看来 正则项是在模型训练过程中引入了某种模型参数的先验分布 Lp正则项 编辑所谓范数即是抽象之长度 通常意义上满足长度的三种性质 非负性 齐次性和三角不等式 以函数的观点来看 范数是定义在R n R displaystyle mathbb R n to mathbb R 的函数 并且它和损失函数类似 也具有下确界 后一性质是由范数的非负性和齐次性保证的 4 这一特性使得L p displaystyle L p 范数天然适合做正则项 因为目标函数仍可用梯度下降等方式求解最优化问题 L p displaystyle L p 范数作为正则项时被称为L p displaystyle L p 正则项 L0和L1正则项 编辑 机器学习模型当中的参数 可形式化地组成参数向量 记为w displaystyle vec omega 不失一般性 以线性模型为例 F x w w x i 1 n w i x i displaystyle F vec x vec omega vec omega intercal cdot vec x sum i 1 n omega i cdot x i 由于训练集当中统计噪声的存在 冗余的特征可能成为过拟合的一种来源 这是因为 对于统计噪声 模型无法从有效特征当中提取信息进行拟合 故而会转向冗余特征 为了对抗此类过拟合现象 人们会希望让尽可能多的w i displaystyle omega i 为零 为此 最直观地 可以引入L 0 displaystyle L 0 正则项W F x w g 0 w 0 n g 0 gt 0 displaystyle Omega bigl F vec x vec omega bigr gamma 0 frac lVert vec omega rVert 0 n gamma 0 gt 0 通过引入L 0 displaystyle L 0 正则项 人们实际上是向优化过程引入了一种惩罚机制 当优化算法希望增加模型复杂度 此处特指将原来为零的参数w i displaystyle omega i 更新为非零的情形 以降低模型的经验风险 即降低全局损失 时 在结构风险上进行大小为g 0 n displaystyle tfrac gamma 0 n 的惩罚 于是 当增加模型复杂度在经验风险上的收益不足g 0 n displaystyle tfrac gamma 0 n 时 整个结构风险实际上会增大而非减小 因此优化算法会拒绝此类更新 引入L 0 displaystyle L 0 正则项可使模型参数稀疏化 以及使得模型易于解释 但L 0 displaystyle L 0 正则项也有无法避免的问题 非连续 非凸 不可微 因此 在引入L 0 displaystyle L 0 正则项的目标函数上做最优化求解 是一个无法在多项式时间内完成的问题 于是 人们转而考虑L 0 displaystyle L 0 范数的最紧凸放松 L 1 displaystyle L 1 范数 令W F x w g 1 w 1 n g 1 gt 0 displaystyle Omega bigl F vec x vec omega bigr gamma 1 frac lVert vec omega rVert 1 n gamma 1 gt 0 和引入L 0 displaystyle L 0 正则项的情况类似 引入L 1 displaystyle L 1 正则项是在结构风险上进行大小为g 1 w i n displaystyle tfrac gamma 1 omega i n 的惩罚 以达到稀疏化的目的 L 1 displaystyle L 1 正则项亦称LASSO 正则项 5 6 L2正则项 编辑 图中左侧是训练集 右侧是验证集 训练集和验证集数据均是由线性函数加上一定的随机扰动生成的 图中橙色直线是以线性模型拟合训练集数据得到模型的函数曲线 绿色虚线则是以15 阶多项式模型拟合训练数据得到模型的函数曲线 由此可見 儘管多项式模型在训练集上的误差小于线性模型 但在验证集上的误差则显著大于线性模型 此外 多项式模型为了拟合噪声点 在噪声点附近进行了高曲率的弯折 这说明多项式模型过拟合了训练集数据 在发生过拟合时 模型的函数曲线往往会发生剧烈的弯折 这意味着模型函数在局部的切线之斜率非常高 一般地 函数的曲率是函数参数的线性组合或非线性组合 为了对抗此类过拟合 人们会希望使得这些参数的值相对稠密且均匀地集中在零附近 于是 人们引入了L 2 displaystyle L 2 范数 作为L 2 displaystyle L 2 正则项 令W F x w g 2 w 2 2 2 n g 2 gt 0 displaystyle Omega bigl F vec x vec w bigr gamma 2 frac lVert vec omega rVert 2 2 2n gamma 2 gt 0 于是有目标函数Obj F L F g 2 w 2 2 2 n displaystyle text Obj F L F gamma 2 frac lVert vec omega rVert 2 2 2n 於是對於參數w i displaystyle omega i 取偏微分 Obj w i L w i g 2 n w i displaystyle frac partial text Obj partial omega i frac partial L partial omega i frac gamma 2 n omega i 因此 在梯度下降时 参数w i displaystyle omega i 的更新w i w i h L w i h g 2 n w i 1 h g 2 n w i h L w i displaystyle omega i gets omega i eta frac partial L partial omega i eta frac gamma 2 n omega i Bigl 1 eta frac gamma 2 n Bigr omega i eta frac partial L partial omega i 注意到h g 2 n displaystyle eta tfrac gamma 2 n 通常是介于 0 1 displaystyle 0 1 之间的数 7 L 2 displaystyle L 2 正则项会使得参数接近零 从而对抗过拟合 L 2 displaystyle L 2 正则项又称Tikhonov 正则项或Ridge 正则项 提前停止 编辑主条目 提前停止 提前停止可看做是时间维度上的正则化 直觉上 随着迭代次数的增加 如梯度下降这样的训练算法倾向于学习愈加复杂的模型 在时间维度上进行正则化有助于控制模型复杂度 提升泛化能力 在实践中 提前停止一般是在训练集上进行训练 而后在统计上独立的验证集上进行评估 当模型在验证集上的性能不再提升时 就提前停止训练 最后 可在测试集上对模型性能做最后测试 参考文献 编辑 Buhlmann Peter Van De Geer Sara Statistics for High Dimensional Data Springer Series in Statistics 9 2011 ISBN 978 3 642 20191 2 doi 10 1007 978 3 642 20192 9 If p gt n the ordinary least squares estimator is not unique and will heavily overfit the data Thus a form of complexity regularization will be necessary Ron Kohavi Foster Provost Glossary of terms Machine Learning 1998 30 271 274 2019 12 10 原始内容存档于2019 11 11 Bishop Christopher M Pattern recognition and machine learning Corr printing New York Springer 2007 ISBN 978 0387310732 范数的非负性保证了范数有下界 当齐次性等式 c x c x displaystyle lVert c cdot vec x rVert c cdot lVert vec x rVert 中的c displaystyle c 取零时可知 零向量的范数是零 这保证了范数有下确界 Santosa Fadil Symes William W Linear inversion of band limited reflection seismograms SIAM Journal on Scientific and Statistical Computing SIAM 1986 7 4 1307 1330 doi 10 1137 0907087 Tibshirani Robert Regression Shrinkage and Selection via the lasso Journal of the Royal Statistical Society Series B methodological Wiley 1996 58 1 267 88 JSTOR 2346178 可通过恰当地调整学习率h displaystyle eta 与正则系数g 2 displaystyle gamma 2 来满足这一点 外部链接 编辑谈谈 L 1 displaystyle L 1 与 L 2 displaystyle L 2 正则项 页面存档备份 存于互联网档案馆 中文 取自 https zh wikipedia org w index php title 正则化 数学 amp oldid 73030853, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。