fbpx
维基百科

统计学习理论

统计学习理论(英語:Statistical learning theory),一種機器學習的架構,根據統計學泛函分析(Functional Analysis)而建立。統計學習理論基於資料(data),找出預測性函數,之後解決問題。支持向量机(Support Vector Machine)的理論基礎來自於統計學習理論。

形式定义 编辑

 为所有可能的输入组成的向量空间,  为所有可能的输出组成的向量空间。统计学习理论认为,积空间 上存在某个未知的概率分布 。训练集由这个概率分布中的 个样例构成,并用 表示。每个 都是训练数据的一个输入向量, 而 则是对应的输出向量。

损失函数 编辑

损失函数的选择是机器学习算法所选的函数 中的决定性因素。 损失函数也影响着算法的收敛速率。损失函数的凸性也十分重要。[1]

根据问题是回归问题还是分类问题,我们可以使用不同的损失函数。

回归问题 编辑

回归问题中最常用的损失函数是平方损失函数(也被称为L2-范数)。类似的损失函数也被用在普通最小二乘回归。其形式是:

 

另一个常见的损失函数是绝对值范数(L1-范数):

 

分类问题 编辑

某种程度上说0-1指示函数是分类问题中最自然的损失函数。它在预测结果与真实结果相同时取0,相异时取1。对于 的二分类问题,这可以表示为:

 

其中 单位阶跃函数

正则化 编辑

 
这张图片给出了机器学习中过拟合的例子。图中红点表示训练数据,绿色曲线表示真实的函数关系,而蓝色曲线为习得的过度拟合了的函数。

机器学习的一大常见问题是过拟合。由于机器学习是一个预测问题,其目标并不是找到一个与(之前观测到的)数据最拟合的的函数,而是寻找一个能对未来的输入作出最精确预测的函数。经验风险最小化有过拟合的风险:找到的函数完美地匹配现有数据但并不能很好地预测未来的输出。

过拟合的常见表现是不稳定的解:训练数据的一个小的扰动会导致学到的函数的巨大波动。可以证明,如果解的稳定性可以得到保证,那么其可推广性和一致性也同样能得到保证。[2][3] 正则化可以解决过拟合的问题并增加解的稳定性。

正则化可以通过限制假设空间 来完成。一个常见的例子是把 限制为线性函数:这可以被看成是把问题简化为标准设计的线性回归 也可以被限制为 次多项式,指数函数,或L1上的有界函数。对假设空间的限制能防止过拟合的原因是,潜在的函数的形式得到了限制,因此防止了那些能给出任意接近于0的经验风险的复杂函数。

一个正则化的样例是吉洪诺夫正则化,即最小化如下损失函数

 

其中正则化参数 为一个固定的正参数。吉洪诺夫正则化保证了解的存在性、唯一性和稳定性。[4]

  1. ^ Rosasco, L., Vito, E.D., Caponnetto, A., Fiana, M., and Verri A. 2004. Neural computation Vol 16, pp 1063-1076
  2. ^ Vapnik, V.N. and Chervonenkis, A.Y. 1971. On the uniform convergence of relative frequencies of events to their probabilities. Theory of Probability and its Applications Vol 16, pp 264-280.
  3. ^ Mukherjee, S., Niyogi, P. Poggio, T., and Rifkin, R. 2006. Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization. Advances in Computational Mathematics. Vol 25, pp 161-193.
  4. ^ Tomaso Poggio, Lorenzo Rosasco, et al. Statistical Learning Theory and Applications, 2012, Class 2 (页面存档备份,存于互联网档案馆

统计学习理论, 英語, statistical, learning, theory, 一種機器學習的架構, 根據統計學與泛函分析, functional, analysis, 而建立, 統計學習理論基於資料, data, 找出預測性函數, 之後解決問題, 支持向量机, support, vector, machine, 的理論基礎來自於統計學習理論, 目录, 形式定义, 损失函数, 回归问题, 分类问题, 正则化形式定义, 编辑令x, displaystyle, nbsp, 为所有可能的输入组成的向量空间, dis. 统计学习理论 英語 Statistical learning theory 一種機器學習的架構 根據統計學與泛函分析 Functional Analysis 而建立 統計學習理論基於資料 data 找出預測性函數 之後解決問題 支持向量机 Support Vector Machine 的理論基礎來自於統計學習理論 目录 1 形式定义 2 损失函数 2 1 回归问题 2 2 分类问题 2 3 正则化形式定义 编辑令X displaystyle X nbsp 为所有可能的输入组成的向量空间 Y displaystyle Y nbsp 为所有可能的输出组成的向量空间 统计学习理论认为 积空间Z X Y displaystyle Z X times Y nbsp 上存在某个未知的概率分布p z p x y displaystyle p z p vec x y nbsp 训练集由这个概率分布中的n displaystyle n nbsp 个样例构成 并用S x 1 y 1 x n y n z 1 z n displaystyle S vec x 1 y 1 dots vec x n y n vec z 1 dots vec z n nbsp 表示 每个x i displaystyle vec x i nbsp 都是训练数据的一个输入向量 而y i displaystyle y i nbsp 则是对应的输出向量 损失函数 编辑损失函数的选择是机器学习算法所选的函数f S displaystyle f S nbsp 中的决定性因素 损失函数也影响着算法的收敛速率 损失函数的凸性也十分重要 1 根据问题是回归问题还是分类问题 我们可以使用不同的损失函数 回归问题 编辑 回归问题中最常用的损失函数是平方损失函数 也被称为L2 范数 类似的损失函数也被用在普通最小二乘回归 其形式是 V f x y y f x 2 displaystyle V f vec x y y f vec x 2 nbsp 另一个常见的损失函数是绝对值范数 L1 范数 V f x y y f x displaystyle V f vec x y y f vec x nbsp 分类问题 编辑 主条目 统计分类 某种程度上说0 1指示函数是分类问题中最自然的损失函数 它在预测结果与真实结果相同时取0 相异时取1 对于Y 1 1 displaystyle Y 1 1 nbsp 的二分类问题 这可以表示为 V f x y 8 y f x displaystyle V f vec x y theta yf vec x nbsp 其中8 displaystyle theta nbsp 为单位阶跃函数 正则化 编辑 nbsp 这张图片给出了机器学习中过拟合的例子 图中红点表示训练数据 绿色曲线表示真实的函数关系 而蓝色曲线为习得的过度拟合了的函数 机器学习的一大常见问题是过拟合 由于机器学习是一个预测问题 其目标并不是找到一个与 之前观测到的 数据最拟合的的函数 而是寻找一个能对未来的输入作出最精确预测的函数 经验风险最小化有过拟合的风险 找到的函数完美地匹配现有数据但并不能很好地预测未来的输出 过拟合的常见表现是不稳定的解 训练数据的一个小的扰动会导致学到的函数的巨大波动 可以证明 如果解的稳定性可以得到保证 那么其可推广性和一致性也同样能得到保证 2 3 正则化可以解决过拟合的问题并增加解的稳定性 正则化可以通过限制假设空间H displaystyle mathcal H nbsp 来完成 一个常见的例子是把H displaystyle mathcal H nbsp 限制为线性函数 这可以被看成是把问题简化为标准设计的线性回归 H displaystyle mathcal H nbsp 也可以被限制为p displaystyle p nbsp 次多项式 指数函数 或L1上的有界函数 对假设空间的限制能防止过拟合的原因是 潜在的函数的形式得到了限制 因此防止了那些能给出任意接近于0的经验风险的复杂函数 一个正则化的样例是吉洪诺夫正则化 即最小化如下损失函数 1 n i 1 n V f x i y i g f H 2 displaystyle frac 1 n displaystyle sum i 1 n V f vec x i y i gamma f mathcal H 2 nbsp 其中正则化参数g displaystyle gamma nbsp 为一个固定的正参数 吉洪诺夫正则化保证了解的存在性 唯一性和稳定性 4 Rosasco L Vito E D Caponnetto A Fiana M and Verri A 2004 Neural computation Vol 16 pp 1063 1076 Vapnik V N and Chervonenkis A Y 1971 On the uniform convergence of relative frequencies of events to their probabilities Theory of Probability and its Applications Vol 16 pp 264 280 Mukherjee S Niyogi P Poggio T and Rifkin R 2006 Learning theory stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization Advances in Computational Mathematics Vol 25 pp 161 193 Tomaso Poggio Lorenzo Rosasco et al Statistical Learning Theory and Applications 2012 Class 2 页面存档备份 存于互联网档案馆 取自 https zh wikipedia org w index php title 统计学习理论 amp oldid 61726325, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。