fbpx
维基百科

经验风险最小化

经验风险最小化 (ERM)是统计学习理论里的一项原则,该原则下有一系列学习算法 ,经验风险最小化用于为这些算法的性能提供理论上的界。核心思想是,我们无法确切知道算法在实际中的运行情况(真正的“风险”),因为我们不知道算法将在其上运行的数据的真实分布,但借助经验风险最小化,我们可以在一组已知的训练数据(“经验”风险)上衡量其性能。

背景 编辑

以下情况是许多有监督学习问题的一般设置。我们有两个空间,输入空间 和输出空间 ,我们的目标是学习(拟合)一个函数  (通常称为假设 ),这个函数在给定 ,输出一个对象  。为此,我们可以使用一个包含  个例子的训练集 ,其中 是输入,  是我们希望从 中得到的相应输出 。

更正式地说,我们假设  服从联合概率分布   ,并且训练集包括 个实例 IID地从  抽取。请注意,联合概率分布的假设使我们可以对预测中的不确定性进行建模(例如,来自数据中的噪声),因为 不是关于 的确定性函数 ,而是在固定  时具有条件分布 随机变量

我们还假定给定非负实值损失函数  来衡量预测 与真实结果 的差异。则假设 的风险定义为损失函数的期望值

 

理论上常用的损失函数是0-1损失函数 

学习算法的最终目标是在固定函数类 中找到风险 最小的假设 

 

经验风险最小化 编辑

通常,无法计算风险 ,因为学习算法不知道分布 (这种情况称为无知学习)。但是,我们可以通过对训练集上的损失函数取平均值来计算一个近似值,称为经验风险

 

经验风险最小化原理[1]指出学习算法应选择一个假设 将经验风险降到最低:

 

因此,由ERM原理定义的学习算法在于解决上述优化问题。

性质 编辑

计算复杂度 编辑

对于具有0-1损失函数的分类问题,即使对于像线性分类器这样的相对简单的函数类,经验风险最小化也被认为是NP难题。 [2]但是,当最小经验风险为零(即数据是线性可分离的)时,可以有效解决。

在实践中,机器学习算法可以通过对0-1损失函数(例如SVM铰链损失)采用凸近似来解决该问题,这种方法更容易优化,或者对分布进行假设  (因此不再是上述结果适用的不可知论学习算法)。

參見 编辑

参考文献 编辑

  1. ^ V. Vapnik (1992). Principles of Risk Minimization for Learning Theory. (页面存档备份,存于互联网档案馆
  2. ^ V. Feldman, V. Guruswami, P. Raghavendra and Yi Wu (2009). Agnostic Learning of Monomials by Halfspaces is Hard. (See the paper and references therein)

进一步阅读 编辑

经验风险最小化, 此條目使用不適當的第一人稱, 我們, 或第二人稱, 你們, 2019年11月12日, 請幫助編輯本條目並使用更為正式且符合百科全書的語調, 是统计学习理论里的一项原则, 该原则下有一系列学习算法, 用于为这些算法的性能提供理论上的界, 核心思想是, 我们无法确切知道算法在实际中的运行情况, 真正的, 风险, 因为我们不知道算法将在其上运行的数据的真实分布, 但借助, 我们可以在一组已知的训练数据, 经验, 风险, 上衡量其性能, 目录, 背景, 性质, 计算复杂度, 參見, 参考文献, 进一步阅读. 此條目使用不適當的第一人稱 我 我們 或第二人稱 你 你們 2019年11月12日 請幫助編輯本條目並使用更為正式且符合百科全書的語調 经验风险最小化 ERM 是统计学习理论里的一项原则 该原则下有一系列学习算法 经验风险最小化用于为这些算法的性能提供理论上的界 核心思想是 我们无法确切知道算法在实际中的运行情况 真正的 风险 因为我们不知道算法将在其上运行的数据的真实分布 但借助经验风险最小化 我们可以在一组已知的训练数据 经验 风险 上衡量其性能 目录 1 背景 2 经验风险最小化 3 性质 3 1 计算复杂度 4 參見 5 参考文献 6 进一步阅读背景 编辑以下情况是许多有监督学习问题的一般设置 我们有两个空间 输入空间X displaystyle X nbsp 和输出空间Y displaystyle Y nbsp 我们的目标是学习 拟合 一个函数 h X Y displaystyle h X to Y nbsp 通常称为假设 这个函数在给定x X displaystyle x in X nbsp 输出一个对象y Y displaystyle y in Y nbsp 为此 我们可以使用一个包含 n displaystyle n nbsp 个例子的训练集 x 1 y 1 x n y n displaystyle x 1 y 1 ldots x n y n nbsp 其中x i X displaystyle x i in X nbsp 是输入 y i Y displaystyle y i in Y nbsp 是我们希望从 h x i displaystyle h x i nbsp 中得到的相应输出 更正式地说 我们假设X displaystyle X nbsp 和Y displaystyle Y nbsp 服从联合概率分布 P x y displaystyle P x y nbsp 并且训练集包括n displaystyle n nbsp 个实例 x 1 y 1 x n y n displaystyle x 1 y 1 ldots x n y n nbsp IID地从P x y displaystyle P x y nbsp 抽取 请注意 联合概率分布的假设使我们可以对预测中的不确定性进行建模 例如 来自数据中的噪声 因为y displaystyle y nbsp 不是关于x displaystyle x nbsp 的确定性函数 而是在固定x displaystyle x nbsp 时具有条件分布P y x displaystyle P y x nbsp 的随机变量 我们还假定给定非负实值损失函数 L y y displaystyle L hat y y nbsp 来衡量预测y displaystyle hat y nbsp 与真实结果y displaystyle y nbsp 的差异 则假设h x displaystyle h x nbsp 的风险定义为损失函数的期望值 R h E L h x y L h x y d P x y displaystyle R h mathbf E L h x y int L h x y dP x y nbsp 理论上常用的损失函数是0 1损失函数 L y y 1 If y y 0 If y y displaystyle L hat y y begin cases 1 amp mbox If quad hat y neq y 0 amp mbox If quad hat y y end cases nbsp 学习算法的最终目标是在固定函数类H displaystyle mathcal H nbsp 中找到风险R h displaystyle R h nbsp 最小的假设h displaystyle h nbsp h arg min h H R h displaystyle h arg min h in mathcal H R h nbsp 经验风险最小化 编辑通常 无法计算风险R h displaystyle R h nbsp 因为学习算法不知道分布P x y displaystyle P x y nbsp 这种情况称为无知学习 但是 我们可以通过对训练集上的损失函数取平均值来计算一个近似值 称为经验风险 R emp h 1 n i 1 n L h x i y i displaystyle R text emp h frac 1 n sum i 1 n L h x i y i nbsp 经验风险最小化原理 1 指出学习算法应选择一个假设h displaystyle hat h nbsp 将经验风险降到最低 h arg min h H R emp h displaystyle hat h arg min h in mathcal H R text emp h nbsp 因此 由ERM原理定义的学习算法在于解决上述优化问题 性质 编辑计算复杂度 编辑 对于具有0 1损失函数的分类问题 即使对于像线性分类器这样的相对简单的函数类 经验风险最小化也被认为是NP难题 2 但是 当最小经验风险为零 即数据是线性可分离的 时 可以有效解决 在实践中 机器学习算法可以通过对0 1损失函数 例如SVM的铰链损失 采用凸近似来解决该问题 这种方法更容易优化 或者对分布进行假设P x y displaystyle P x y nbsp 因此不再是上述结果适用的不可知论学习算法 參見 编辑最大似然估计 M估计器参考文献 编辑 V Vapnik 1992 Principles of Risk Minimization for Learning Theory 页面存档备份 存于互联网档案馆 V Feldman V Guruswami P Raghavendra and Yi Wu 2009 Agnostic Learning of Monomials by Halfspaces is Hard See the paper and references therein 进一步阅读 编辑Vapnik V The Nature of Statistical Learning Theory Information Science and Statistics Springer Verlag 2000 ISBN 978 0 387 98780 4 Vapnik V The Nature of Statistical Learning Theory Information Science and Statistics Springer Verlag 2000 ISBN 978 0 387 98780 4 Vapnik V The Nature of Statistical Learning Theory Information Science and Statistics Springer Verlag 2000 ISBN 978 0 387 98780 4 取自 https zh wikipedia org w index php title 经验风险最小化 amp oldid 70053660, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。