fbpx
维基百科

支持向量机

机器学习中,支持向量机 (台湾称支援向量機,英語:support vector machine,常简称為SVM,又名支援向量网络[1])是在分类迴歸分析中分析数据的監督式學習模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法建立一个将新的实例分配给两个类别之一的模型,使其成为非概率二元英语binary classifier线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。

除了进行线性分类之外,SVM还可以使用所谓的核技巧英语kernel trick有效地进行非线性分类,将其输入隐式映射到高维特征空间中。

当数据未被标记时,不能进行监督式学习,需要用非監督式學習,它会尝试找出数据到簇的自然聚类,并将新数据映射到这些已形成的簇。将支援向量机改进的聚类算法被称为支援向量聚类[2],当数据未被标记或者仅一些数据被标记时,支援向量聚类经常在工业应用中用作分类步骤的预处理。

动机 编辑

 
H1 不能把类别分开。H2 可以,但只有很小的间隔。H3 以最大间隔将它们分开。

将数据进行分类机器学习中的一项常见任务。 假设某些给定的数据点各自属于两个类之一,而目标是确定新数据点将在哪个类中。对于支持向量机来说,数据点被视为   维向量,而我们想知道是否可以用  超平面来分开这些点。这就是所谓的线性分类器。可能有许多超平面可以把数据分类。最佳超平面的一个合理选择是以最大间隔把两个类分开的超平面。因此,我们要选择能够让到每边最近的数据点的距离最大化的超平面。如果存在这样的超平面,则称为最大间隔超平面,而其定义的线性分类器被称为最大间隔分类器英语margin classifier,或者叫做最佳稳定性感知器[來源請求]

定义 编辑

更正式地来说,支持向量机在高维或无限维空间中构造超平面或超平面集合,其可以用于分类、回归或其他任务。直觀來說,分類邊界距離最近的訓練資料點越遠越好,因為這樣可以缩小分類器的泛化誤差

 
核机器,图中核函数Φ,将低维非线性可分离函数(左)计算成高维线性可分离函数(右)

尽管原始问题可能是在有限维空间中陈述的,但用于区分的集合在该空间中往往线性不可分英语Linear separability。为此,有人提出将原有限维空间映射到维数高得多的空间中,在该空间中进行分离可能会更容易。为了保持计算负荷合理,人们选择适合该问题的核函数英语Positive-definite kernel   来定义SVM方案使用的映射,以确保用原始空间中的变量可以很容易计算点积[3] 高维空间中的超平面定义为与该空间中的某向量的点积是常数的点的集合。定义超平面的向量可以选择在数据集中出现的特征向量   的图像的参数   的线性组合。通过选择超平面,被映射到超平面上的特征空间中的点集   由以下关系定义:  注意,如果随着   逐渐远离    变小,则求和中的每一项都是在衡量测试点   与对应的数据基点   的接近程度。这样,上述内核的总和可以用于衡量每个测试点相对于待分离的集合中的数据点的相对接近度。

应用 编辑

  • 用于文本和超文本的分类,在归纳和直推方法中都可以显著减少所需要的有类标的样本数。
  • 用于图像分类。实验结果显示:在经过三到四轮相关反馈之后,比起传统的查询优化方案,支持向量机能够取得明显更高的搜索准确度。这同样也适用于图像分割系统,比如使用Vapnik所建议的使用特权方法的修改版本SVM的那些图像分割系统。[4][5]
  • 用于手写字体识别。
  • 用于医学中分类蛋白质,超过90%的化合物能够被正确分类。基于支持向量机权重的置换测试已被建议作为一种机制,用于解释的支持向量机模型。[6][7] 支持向量机权重也被用来解释过去的SVM模型。[8] 为识别模型用于进行预测的特征而对支持向量机模型做出事后解释是在生物科学中具有特殊意义的相对较新的研究领域。

历史 编辑

原始SVM算法是由蘇聯數學家弗拉基米尔·瓦普尼克亞歷克塞·澤范蘭傑斯于1963年发明的。1992年,伯恩哈德·E·博瑟(Bernhard E. Boser)、伊莎贝尔·M·盖昂(Isabelle M. Guyon)和瓦普尼克提出了一种通过将核技巧应用于最大间隔超平面来创建非线性分类器的方法。[9] 当前标准的前身(软间隔)由科琳娜·科特斯和瓦普尼克于1993年提出,并于1995年发表。[1]

线性SVM 编辑

我们考虑以下形式的   点测试集:

 

其中   是 1 或者 −1,表明点   所属的类。  中每个都是一个  向量。我们要求将   的点集    的点集分开的 “最大间隔超平面”,使得超平面与最近的点   之间的距离最大化。

任何超平面都可以写作满足下面方程的点集  

 
 
设样本属于两个类,用该样本训练SVM得到的最大间隔超平面。在边缘上的样本点称为支持向量。

其中  (不必是归一化的)是该法向量。参数   决定从原点沿法向量   到超平面的偏移量。

硬间隔 编辑

如果这些训练数据是线性可分的,可以选择分离两类数据的两个平行超平面,使得它们之间的距离尽可能大。在这两个超平面范围内的区域称为“间隔”,最大间隔超平面是位于它们正中间的超平面。这些超平面可以由方程:

 

或是

 

来表示。通过几何不难得到这两个超平面之间的距离是  ,因此要使两平面间的距离最大,我们需要最小化  。同时为了使得样本数据点都在超平面的间隔区以外,我们需要保证对于所有的   满足其中的一个条件:

  

或是

  

这些约束表明每个数据点都必须位于间隔的正确一侧。

这两个式子可以写作:

 

可以用这个式子一起来得到优化问题:

“在   条件下,最小化  ,对于  "

这个问题的解    决定了我们的分类器  

此几何描述的一个显而易见却重要的结果是,最大间隔超平面完全是由最靠近它的那些   确定的。这些   叫做支持向量

软间隔 编辑

为了将SVM扩展到数据线性不可分的情况,我们引入铰链损失函数,

 

当约束条件 (1) 满足时(也就是如果   位于边距的正确一侧)此函数为零。对于间隔的错误一侧的数据,该函数的值与距间隔的距离成正比。 然后我们希望最小化

 

其中参数   用来权衡增加间隔大小与确保   位于间隔的正确一侧之间的关系。因此,对于足够小的   值,如果输入数据是可以线性分类的,则软间隔SVM与硬间隔SVM将表现相同,但即使不可线性分类,仍能学习出可行的分类规则。

非线性分类 编辑

 
核机器,图中核函数Φ,将低维非线性可分离函数(左)计算成高维线性可分离函数(右)

弗拉基米尔·瓦普尼克在1963年提出的原始最大间隔超平面算法构造了一个线性分类器。而1992年,伯恩哈德·E·博瑟(Bernhard E. Boser)、伊莎贝尔·M·盖昂(Isabelle M. Guyon)和瓦普尼克提出了一种通过将核技巧英语kernel trick(最初由Aizerman et al.[10]提出)应用于最大边界超平面来创建非线性分类器的方法。[11] 所得到的算法形式上类似,除了把点积换成了非线性函数。这就允许算法在变换后的特征空间中拟合最大间隔超平面。该变换可以是非线性的,而变换空间是高维的;虽然分类器是变换后的特征空间中的超平面,但它在原始输入空间中可以是非线性的。

值得注意的是,更高维的特征空间增加了支持向量机的泛化误差,但给定足够多的样本,算法仍能表现良好。[12]

常见的核函数包括:

  • 齊次多項式 
  • 非齐次多项式英语Polynomial kernel 
  • 高斯径向基函数 ,其中  。有时参数化表示  
  • 双曲正切 ,其中一些(而非所有)  

由等式  ,核函数与变换   有关。变换空间中也有 w 值, 。与 w 的点积也要用核技巧来计算,即  

计算SVM分类器 编辑

计算(软间隔)SVM分类器等同于使下面表达式最小化

 

如上所述,由于我们关注的是软间隔分类器,  选择足够小的值就能得到线性可分类输入数据的硬间隔分类器。下面会详细介绍将(2)简化为二次规划问题的经典方法。之后会讨论一些最近才出现的方法,如次梯度下降法和坐标下降法。

原型 编辑

最小化(2)可以用下面的方式改写为目标函数可微的约束优化问题。

对所有   我们引入变量  。注意到   是满足   的最小非负数。

因此,我们可以将优化问题叙述如下

 

 

这就叫做原型问题。

对偶型 编辑

通过求解上述问题的拉格朗日对偶英语Duality (optimization),得到简化的问题

 

 

这就叫做对偶问题。由于对偶最小化问题是受线性约束的   的二次函数,所以它可以通过二次规划算法高效地解出。 这里,变量   定义为满足

 .

此外,当   恰好在间隔的正确一侧时  ,且当   位于间隔的边界时  。因此,  可以写为支持向量的线性组合。 可以通过在间隔的边界上找到一个   并求解

 

得到偏移量  。(注意由于   因而  。)

核技巧 编辑

假设我们要学习与变换后数据点   的线性分类规则对应的非线性分类规则。此外,我们有一个满足   的核函数  

我们知道变换空间中的分类向量   满足

 

其中   可以通过求解优化问题

 

 

得到。与前面一样,可以使用二次规划来求解系数  。同样,我们可以找到让   的索引  ,使得   位于变换空间中间隔的边界上,然后求解

 

最后,可以通过计算下式来分类新点

 

现代方法 编辑

用于找到SVM分类器的最近的算法包括次梯度下降和坐标下降。当处理大的稀疏数据集时,这两种技术已经被证明有着显著的优点——当存在许多训练实例时次梯度法是特别有效的,并且当特征空间的维度高时,坐标下降特别有效。

次梯度下降 编辑

SVM的次梯度下降算法直接用表达式

 

注意    凸函数。因此,可以采用传统的梯度下降(或SGD英语Stochastic gradient descent)方法,其中不是在函数梯度的方向上前进,而是在从函数的次梯度中选出的向量的方向上前进。该方法的优点在于,对于某些实现,迭代次数不随着数据点的数量   而增加或减少。[13]

坐标下降 编辑

SVM的坐标下降算法基于对偶问题

 

 

对所有   进行迭代,使系数   的方向与   一致。然后,将所得的系数向量   投影到满足给定约束的最接近的系数向量。(通常使用欧氏距离。)然后重复该过程,直到获得接近最佳的系数向量。所得的算法在实践中运行非常快,尽管已经证明的性能保证很少。[14]

性质 编辑

SVM属于广义线性分类器的一族,并且可以解释为感知器的延伸。它们也可以被认为是吉洪诺夫正则化的特例。它们有一个特别的性质,就是可以同时最小化经验误差和最大化几何边缘区; 因此它们也被称为最大间隔分类器

Meyer、Leisch和Hornik对SVM与其他分类器进行了比较。[15]

参数选择 编辑

SVM的有效性取决于核函数、核参数和软间隔参数 C 的选择。 通常会选只有一个参数   的高斯核。C  的最佳组合通常通过在 C  为指数增长序列下网格搜索英语grid search来选取,例如  ;  。通常情况下,使用交叉驗證来检查参数选择的每一个组合,并选择具有最佳交叉验证精度的参数。或者,最近在贝叶斯优化中的工作可以用于选择C和γ,通常需要评估比网格搜索少得多的参数组合。或者,贝叶斯优化英语Bayesian optimization的最近进展可以用于选择 C ,通常需要计算的参数组合比网格搜索少得多。然后,使用所选择的参数在整个训练集上训练用于测试和分类新数据的最终模型。[16]

问题 编辑

SVM的潜在缺点包括以下方面:

  • 需要对输入数据进行完全标记
  • 未校准类成员概率
  • SVM仅直接适用于两类任务。因此,必须应用将多类任务减少到几个二元问题的算法;请参阅多类SVM一节。
  • 解出的模型的参数很难理解。

延伸 编辑

  • 支持向量聚類:支持向量聚類是一種建立在核函數上的類似方法,同適用於非監督學習和數據挖掘。它被認為是數據科學中的一種基本方法。
  • 轉導支持向量機
  • 多元分類支持向量機:SVM算法最初是為二值分類問題設計的,實現多分類的主要方法是將一個多分類問題轉化為多個二分類問題。常見方法包括“一對多法”和“一對一法”,一對多法是將某個類別的樣本歸為一類,其他剩餘的樣本歸為另一類,這樣k個類別的樣本就構造出了k個二分類SVM;一對一法則是在任意兩類樣本之間設計一個SVM。
  • 支持向量回歸
  • 結構化支持向量機:支持向量機可以被推廣為結構化的支持向量機,推廣後標籤空間是結構化的並且可能具有無限的大小。

实现 编辑

最大间隔超平面的参数是通过求解优化得到的。有几种专门的算法可用于快速解决由SVM产生的QP问题,它们主要依靠启发式算法将问题分解成更小、更易于处理的子问题。

另一种方法是使用内点法,其使用类似牛顿法的迭代找到卡羅需-庫恩-塔克條件下原型和对偶型的解。[17] 这种方法不是去解决一系列分解问题,而是直接完全解决该问题。为了避免求解核矩阵很大的线性系统,在核技巧中经常使用矩阵的低秩近似。

另一个常见的方法是普莱特的序列最小优化算法(SMO),它把问题分成了若干个可以解析求解的二维子问题,这样就可以避免使用数值优化算法和矩阵存储。[18]

线性支持向量机的特殊情况可以通过用于优化其类似问题邏輯斯諦迴歸的同类算法更高效求解;这类算法包括次梯度下降法(如PEGASOS[19])和坐标下降法(如LIBLINEAR[20])。LIBLINEAR有一些引人注目的训练时间上的特性。每次收敛迭代花费在读取训练数据上的时间是线性的,而且这些迭代还具有Q-线性收敛英语Rate of convergence特性,使得算法非常快。

一般的核SVM也可以用次梯度下降法(P-packSVM[21])更快求解,在允许并行化时求解速度尤其快。

许多机器学习工具包都可以使用核SVM,有LIBSVM英语LIBSVMMATLAB、SAS[22]、SVMlight、kernlab[23]scikit-learnShogun英语Shogun (toolbox)Weka、Shark[24]、JKernelMachines[25]、OpenCV等。

参见 编辑

  • 核机器英语Kernel machines
  • 费希尔核英语Fisher kernel
  • 多项式核函数英语Polynomial kernel
  • 预测分析
  • 相关向量机,函数形式与SVM相同的概率稀疏核模型
  • 序列最小优化算法
  • 空间映射英语Space mapping

参考文献 编辑

引用 编辑

  1. ^ 1.0 1.1 Cortes, C.; Vapnik, V. Support-vector networks. Machine Learning英语Machine Learning (journal). 1995, 20 (3): 273–297. doi:10.1007/BF00994018. 
  2. ^ Ben-Hur, Asa, Horn, David, Siegelmann, Hava, and Vapnik, Vladimir; "Support vector clustering" (2001) Journal of Machine Learning Research, 2: 125–137.
  3. ^ *Press, William H.; Teukolsky, Saul A.; Vetterling, William T.; Flannery, B. P. Section 16.5. Support Vector Machines. Numerical Recipes: The Art of Scientific Computing 3rd. New York: Cambridge University Press. 2007 [2016-11-06]. ISBN 978-0-521-88068-8. (原始内容于2011-08-11). 
  4. ^ Vapnik, V.: Invited Speaker. IPMU Information Processing and Management 2014)
  5. ^ Barghout, Lauren. "Spatial-Taxon Information Granules as Used in Iterative Fuzzy-Decision-Making for Image Segmentation." Granular Computing and Decision-Making. Springer International Publishing, 2015. 285-318.
  6. ^ Bilwaj Gaonkar, Christos Davatzikos Analytic estimation of statistical significance maps for support vector machine based multi-variate image analysis and classification
  7. ^ R. Cuingnet, C. Rosso, M. Chupin, S. Lehéricy, D. Dormont, H. Benali, Y. Samson and O. Colliot, Spatial regularization of SVM for the detection of diffusion alterations associated with stroke outcome, Medical Image Analysis, 2011, 15 (5): 729–737
  8. ^ Statnikov, A., Hardin, D., & Aliferis, C. (2006). Using SVM weight-based methods to identify causally relevant and non-causally relevant variables. sign, 1, 4.
  9. ^ Boser, B. E.; Guyon, I. M.; Vapnik, V. N. A training algorithm for optimal margin classifiers. Proceedings of the fifth annual workshop on Computational learning theory – COLT '92. 1992: 144. ISBN 089791497X. doi:10.1145/130385.130401. 
  10. ^ Aizerman, Mark A.; Braverman, Emmanuel M. & Rozonoer, Lev I. Theoretical foundations of the potential function method in pattern recognition learning. Automation and Remote Control. 1964, 25: 821–837. 
  11. ^ Boser, B. E.; Guyon, I. M.; Vapnik, V. N. A training algorithm for optimal margin classifiers. Proceedings of the fifth annual workshop on Computational learning theory – COLT '92. 1992: 144. ISBN 089791497X. doi:10.1145/130385.130401. 
  12. ^ Jin, Chi; Wang, Liwei. Dimensionality dependent PAC-Bayes margin bound. Advances in Neural Information Processing Systems. 2012 [2016-11-06]. (原始内容于2015-04-02). 
  13. ^ Shalev-Shwartz, Shai; Singer, Yoram; Srebro, Nathan; Cotter, Andrew. Pegasos: primal estimated sub-gradient solver for SVM. Mathematical Programming. 2010-10-16, 127 (1): 3–30 [2016-11-06]. ISSN 0025-5610. doi:10.1007/s10107-010-0420-4. (原始内容于2016-08-25). 
  14. ^ Hsieh, Cho-Jui; Chang, Kai-Wei; Lin, Chih-Jen; Keerthi, S. Sathiya; Sundararajan, S. A Dual Coordinate Descent Method for Large-scale Linear SVM. Proceedings of the 25th International Conference on Machine Learning. ICML '08 (New York, NY, USA: ACM). 2008-01-01: 408–415. ISBN 978-1-60558-205-4. doi:10.1145/1390156.1390208. 
  15. ^ Meyer, D.; Leisch, F.; Hornik, K. The support vector machine under test. Neurocomputing. 2003, 55: 169. doi:10.1016/S0925-2312(03)00431-4. 
  16. ^ Hsu, Chih-Wei; Chang, Chih-Chung & Lin, Chih-Jen. A Practical Guide to Support Vector Classification (PDF) (技术报告). Department of Computer Science and Information Engineering, National Taiwan University. 2003 [2016-11-06]. (原始内容 (PDF)于2013-06-25). 
  17. ^ Ferris, M. C.; Munson, T. S. Interior-Point Methods for Massive Support Vector Machines. SIAM Journal on Optimization. 2002, 13 (3): 783. doi:10.1137/S1052623400374379. 
  18. ^ John C. Platt. Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines (PDF). NIPS. 1998 [2016-11-06]. (原始内容 (PDF)于2015-07-02). 
  19. ^ Shai Shalev-Shwartz; Yoram Singer; Nathan Srebro. Pegasos: Primal Estimated sub-GrAdient SOlver for SVM (PDF). ICML. 2007 [2016-11-06]. (原始内容 (PDF)于2013-12-15). 
  20. ^ R.-E. Fan; K.-W. Chang; C.-J. Hsieh; X.-R. Wang; C.-J. Lin. LIBLINEAR: A library for large linear classification. Journal of Machine Learning Research英语Journal of Machine Learning Research. 2008, 9: 1871–1874. 
  21. ^ Zeyuan Allen Zhu; et al. P-packSVM: Parallel Primal grAdient desCent Kernel SVM (PDF). ICDM. 2009 [2016-11-06]. (原始内容 (PDF)于2014-04-07). 
  22. ^ SAS (页面存档备份,存于互联网档案馆
  23. ^ kernlab
  24. ^ Shark (页面存档备份,存于互联网档案馆
  25. ^ JKernelMachines (页面存档备份,存于互联网档案馆

来源 编辑

  • Theodoridis, Sergios; and Koutroumbas, Konstantinos; "Pattern Recognition", 4th Edition, Academic Press, 2009, ISBN 978-1-59749-272-0
  • Cristianini, Nello; and Shawe-Taylor, John; , Cambridge University Press, 2000. ISBN 0-521-78019-5 (SVM Book)
  • Huang, Te-Ming; Kecman, Vojislav; and Kopriva, Ivica (2006); Kernel Based Algorithms for Mining Huge Data Sets (页面存档备份,存于互联网档案馆, in Supervised, Semi-supervised, and Unsupervised Learning, Springer-Verlag, Berlin, Heidelberg, 260 pp. 96 illus., Hardcover, ISBN 3-540-31681-7
  • Kecman, Vojislav; Learning and Soft Computing — Support Vector Machines, Neural Networks, Fuzzy Logic Systems (页面存档备份,存于互联网档案馆, The MIT Press, Cambridge, MA, 2001.
  • Schölkopf, Bernhard; and Smola, Alexander J.; Learning with Kernels, MIT Press, Cambridge, MA, 2002. ISBN 0-262-19475-9
  • Schölkopf, Bernhard; Burges, Christopher J. C.; and Smola, Alexander J. (editors); , MIT Press, Cambridge, MA, 1999. ISBN 0-262-19416-3.
  • Shawe-Taylor, John; and Cristianini, Nello; Kernel Methods for Pattern Analysis (页面存档备份,存于互联网档案馆, Cambridge University Press, 2004. ISBN 0-521-81397-2 (Kernel Methods Book)
  • Steinwart, Ingo; and Christmann, Andreas; , Springer-Verlag, New York, 2008. ISBN 978-0-387-77241-7 (SVM Book)
  • Tan, Peter Jing; and Dowe, David L. (页面存档备份,存于互联网档案馆) (2004); MML Inference of Oblique Decision Trees (页面存档备份,存于互联网档案馆), Lecture Notes in Artificial Intelligence (LNAI) 3339, Springer-Verlag, . (This paper uses minimum message length (MML) and actually incorporates probabilistic support vector machines in the leaves of decision trees.)
  • Vapnik, Vladimir N.; The Nature of Statistical Learning Theory, Springer-Verlag, 1995. ISBN 0-387-98780-0
  • Vapnik, Vladimir N.; and Kotz, Samuel; Estimation of Dependences Based on Empirical Data, Springer, 2006. ISBN 0-387-30865-2, 510 pages [this is a reprint of Vapnik's early book describing philosophy behind SVM approach. The 2006 Appendix describes recent development].
  • Fradkin, Dmitriy; and Muchnik, Ilya; in Abello, J.; and Carmode, G. (Eds); Discrete Methods in Epidemiology, DIMACS Series in Discrete Mathematics and Theoretical Computer Science, volume 70, pp. 13–20, 2006. Succinctly describes theoretical ideas behind SVM.
  • Bennett, Kristin P.; and Campbell, Colin; Support Vector Machines: Hype or Hallelujah? (页面存档备份,存于互联网档案馆, SIGKDD Explorations, 2, 2, 2000, 1–13. Excellent introduction to SVMs with helpful figures.
  • Ivanciuc, Ovidiu; Applications of Support Vector Machines in Chemistry (页面存档备份,存于互联网档案馆, in Reviews in Computational Chemistry, Volume 23, 2007, pp. 291–400.
  • Catanzaro, Bryan; Sundaram, Narayanan; and Keutzer, Kurt; , in International Conference on Machine Learning, 2008
  • Campbell, Colin; and Ying, Yiming; Learning with Support Vector Machines (页面存档备份,存于互联网档案馆, 2011, Morgan and Claypool. ISBN 978-1-60845-616-1.
  • Ben-Hur, Asa, Horn, David, Siegelmann, Hava, and Vapnik, Vladimir; "Support vector clustering" (2001) Journal of Machine Learning Research, 2: 125–137.

外部链接 编辑

  • The key book about the method, "An Introduction to Support Vector Machines" with online software
  • Burges, Christopher J. C.; A Tutorial on Support Vector Machines for Pattern Recognition (页面存档备份,存于互联网档案馆), Data Mining and Knowledge Discovery 2:121–167, 1998
  • www.kernel-machines.org (页面存档备份,存于互联网档案馆(general information and collection of research papers)
  • www.support-vector-machines.org (页面存档备份,存于互联网档案馆(Literature, Review, Software, Links related to Support Vector Machines — Academic Site)
  • svmtutorial.online (页面存档备份,存于互联网档案馆) A simple introduction to SVM, easily accessible to anyone with basic background in mathematics
  • videolectures.net (页面存档备份,存于互联网档案馆(SVM-related video lectures)
  • Karatzoglou, Alexandros et al.; Support Vector Machines in R (页面存档备份,存于互联网档案馆), Journal of Statistical Software April 2006, Volume 15, Issue 9.
  • libsvm (页面存档备份,存于互联网档案馆), LIBSVM is a popular library of SVM learners
  • liblinear (页面存档备份,存于互联网档案馆) is a library for large linear classification including some SVMs
  • is a C++ machine learning library implementing various types of SVMs
  • dlib (页面存档备份,存于互联网档案馆) is a C++ library for working with kernel methods and SVMs
  • is a collection of software tools for learning and classification using SVM
  • SVMJS live demo (页面存档备份,存于互联网档案馆) is a GUI demo for JavaScript implementation of SVMs
  • Gesture Recognition Toolkit (页面存档备份,存于互联网档案馆) contains an easy to use wrapper for libsvm (页面存档备份,存于互联网档案馆

支持向量机, 重定向至此, 关于其他用法, 请见, 消歧义, 在机器学习中, 台湾称支援向量機, 英語, support, vector, machine, 常简称為svm, 又名支援向量网络, 是在分类与迴歸分析中分析数据的監督式學習模型与相关的学习算法, 给定一组训练实例, 每个训练实例被标记为属于两个类别中的一个或另一个, svm训练算法建立一个将新的实例分配给两个类别之一的模型, 使其成为非概率二元, 英语, binary, classifier, 线性分类器, svm模型是将实例表示为空间中的点, 这样映. SVM 重定向至此 关于其他用法 请见 SVM 消歧义 在机器学习中 支持向量机 台湾称支援向量機 英語 support vector machine 常简称為SVM 又名支援向量网络 1 是在分类与迴歸分析中分析数据的監督式學習模型与相关的学习算法 给定一组训练实例 每个训练实例被标记为属于两个类别中的一个或另一个 SVM训练算法建立一个将新的实例分配给两个类别之一的模型 使其成为非概率二元 英语 binary classifier 线性分类器 SVM模型是将实例表示为空间中的点 这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开 然后 将新的实例映射到同一空间 并基于它们落在间隔的哪一侧来预测所属类别 除了进行线性分类之外 SVM还可以使用所谓的核技巧 英语 kernel trick 有效地进行非线性分类 将其输入隐式映射到高维特征空间中 当数据未被标记时 不能进行监督式学习 需要用非監督式學習 它会尝试找出数据到簇的自然聚类 并将新数据映射到这些已形成的簇 将支援向量机改进的聚类算法被称为支援向量聚类 2 当数据未被标记或者仅一些数据被标记时 支援向量聚类经常在工业应用中用作分类步骤的预处理 目录 1 动机 2 定义 3 应用 4 历史 5 线性SVM 5 1 硬间隔 5 2 软间隔 6 非线性分类 7 计算SVM分类器 7 1 原型 7 2 对偶型 7 3 核技巧 7 4 现代方法 7 4 1 次梯度下降 7 4 2 坐标下降 8 性质 8 1 参数选择 8 2 问题 9 延伸 10 实现 11 参见 12 参考文献 12 1 引用 12 2 来源 13 外部链接动机 编辑 nbsp H1 不能把类别分开 H2 可以 但只有很小的间隔 H3 以最大间隔将它们分开 将数据进行分类是机器学习中的一项常见任务 假设某些给定的数据点各自属于两个类之一 而目标是确定新数据点将在哪个类中 对于支持向量机来说 数据点被视为 p displaystyle p nbsp 维向量 而我们想知道是否可以用 p 1 displaystyle p 1 nbsp 维超平面来分开这些点 这就是所谓的线性分类器 可能有许多超平面可以把数据分类 最佳超平面的一个合理选择是以最大间隔把两个类分开的超平面 因此 我们要选择能够让到每边最近的数据点的距离最大化的超平面 如果存在这样的超平面 则称为最大间隔超平面 而其定义的线性分类器被称为最大间隔分类器 英语 margin classifier 或者叫做最佳稳定性感知器 來源請求 定义 编辑更正式地来说 支持向量机在高维或无限维空间中构造超平面或超平面集合 其可以用于分类 回归或其他任务 直觀來說 分類邊界距離最近的訓練資料點越遠越好 因為這樣可以缩小分類器的泛化誤差 nbsp 核机器 图中核函数F 将低维非线性可分离函数 左 计算成高维线性可分离函数 右 尽管原始问题可能是在有限维空间中陈述的 但用于区分的集合在该空间中往往线性不可分 英语 Linear separability 为此 有人提出将原有限维空间映射到维数高得多的空间中 在该空间中进行分离可能会更容易 为了保持计算负荷合理 人们选择适合该问题的核函数 英语 Positive definite kernel k x y displaystyle k x y nbsp 来定义SVM方案使用的映射 以确保用原始空间中的变量可以很容易计算点积 3 高维空间中的超平面定义为与该空间中的某向量的点积是常数的点的集合 定义超平面的向量可以选择在数据集中出现的特征向量 x i displaystyle x i nbsp 的图像的参数 a i displaystyle alpha i nbsp 的线性组合 通过选择超平面 被映射到超平面上的特征空间中的点集 x displaystyle x nbsp 由以下关系定义 i a i k x i x c o n s t a n t displaystyle textstyle sum i alpha i k x i x mathrm constant nbsp 注意 如果随着 y displaystyle y nbsp 逐渐远离 x displaystyle x nbsp k x y displaystyle k x y nbsp 变小 则求和中的每一项都是在衡量测试点 x displaystyle x nbsp 与对应的数据基点 x i displaystyle x i nbsp 的接近程度 这样 上述内核的总和可以用于衡量每个测试点相对于待分离的集合中的数据点的相对接近度 应用 编辑用于文本和超文本的分类 在归纳和直推方法中都可以显著减少所需要的有类标的样本数 用于图像分类 实验结果显示 在经过三到四轮相关反馈之后 比起传统的查询优化方案 支持向量机能够取得明显更高的搜索准确度 这同样也适用于图像分割系统 比如使用Vapnik所建议的使用特权方法的修改版本SVM的那些图像分割系统 4 5 用于手写字体识别 用于医学中分类蛋白质 超过90 的化合物能够被正确分类 基于支持向量机权重的置换测试已被建议作为一种机制 用于解释的支持向量机模型 6 7 支持向量机权重也被用来解释过去的SVM模型 8 为识别模型用于进行预测的特征而对支持向量机模型做出事后解释是在生物科学中具有特殊意义的相对较新的研究领域 历史 编辑原始SVM算法是由蘇聯數學家弗拉基米尔 瓦普尼克和亞歷克塞 澤范蘭傑斯于1963年发明的 1992年 伯恩哈德 E 博瑟 Bernhard E Boser 伊莎贝尔 M 盖昂 Isabelle M Guyon 和瓦普尼克提出了一种通过将核技巧应用于最大间隔超平面来创建非线性分类器的方法 9 当前标准的前身 软间隔 由科琳娜 科特斯和瓦普尼克于1993年提出 并于1995年发表 1 线性SVM 编辑我们考虑以下形式的 n displaystyle n nbsp 点测试集 x 1 y 1 x n y n displaystyle vec x 1 y 1 ldots vec x n y n nbsp 其中 y i displaystyle y i nbsp 是 1 或者 1 表明点 x i displaystyle vec x i nbsp 所属的类 x i displaystyle vec x i nbsp 中每个都是一个 p displaystyle p nbsp 维实向量 我们要求将 y i 1 displaystyle y i 1 nbsp 的点集 x i displaystyle vec x i nbsp 与 y i 1 displaystyle y i 1 nbsp 的点集分开的 最大间隔超平面 使得超平面与最近的点 x i displaystyle vec x i nbsp 之间的距离最大化 任何超平面都可以写作满足下面方程的点集 x displaystyle vec x nbsp w x b 0 displaystyle vec w cdot vec x b 0 nbsp nbsp 设样本属于两个类 用该样本训练SVM得到的最大间隔超平面 在边缘上的样本点称为支持向量 其中 w displaystyle vec w nbsp 不必是归一化的 是该法向量 参数 b w displaystyle tfrac b vec w nbsp 决定从原点沿法向量 w displaystyle vec w nbsp 到超平面的偏移量 硬间隔 编辑 如果这些训练数据是线性可分的 可以选择分离两类数据的两个平行超平面 使得它们之间的距离尽可能大 在这两个超平面范围内的区域称为 间隔 最大间隔超平面是位于它们正中间的超平面 这些超平面可以由方程 w x b 1 displaystyle vec w cdot vec x b 1 nbsp 或是 w x b 1 displaystyle vec w cdot vec x b 1 nbsp 来表示 通过几何不难得到这两个超平面之间的距离是 2 w displaystyle tfrac 2 vec w nbsp 因此要使两平面间的距离最大 我们需要最小化 w displaystyle vec w nbsp 同时为了使得样本数据点都在超平面的间隔区以外 我们需要保证对于所有的 i displaystyle i nbsp 满足其中的一个条件 w x i b 1 displaystyle vec w cdot vec x i b geq 1 nbsp 若 y i 1 displaystyle y i 1 nbsp 或是 w x i b 1 displaystyle vec w cdot vec x i b leq 1 nbsp 若 y i 1 displaystyle y i 1 nbsp 这些约束表明每个数据点都必须位于间隔的正确一侧 这两个式子可以写作 y i w x i b 1 for all 1 i n 1 displaystyle y i vec w cdot vec x i b geq 1 quad text for all 1 leq i leq n qquad qquad 1 nbsp 可以用这个式子一起来得到优化问题 在 y i w x i b 1 displaystyle y i vec w cdot vec x i b geq 1 nbsp 条件下 最小化 w displaystyle vec w nbsp 对于 i 1 n displaystyle i 1 ldots n nbsp 这个问题的解 w displaystyle vec w nbsp 与 b displaystyle b nbsp 决定了我们的分类器 x sgn w x b displaystyle vec x mapsto operatorname sgn vec w cdot vec x b nbsp 此几何描述的一个显而易见却重要的结果是 最大间隔超平面完全是由最靠近它的那些 x i displaystyle vec x i nbsp 确定的 这些 x i displaystyle vec x i nbsp 叫做支持向量 软间隔 编辑为了将SVM扩展到数据线性不可分的情况 我们引入铰链损失函数 max 0 1 y i w x i b displaystyle max left 0 1 y i vec w cdot vec x i b right nbsp 当约束条件 1 满足时 也就是如果 x i displaystyle vec x i nbsp 位于边距的正确一侧 此函数为零 对于间隔的错误一侧的数据 该函数的值与距间隔的距离成正比 然后我们希望最小化 1 n i 1 n max 0 1 y i w x i b l w 2 displaystyle left frac 1 n sum i 1 n max left 0 1 y i vec w cdot vec x i b right right lambda lVert vec w rVert 2 nbsp 其中参数 l displaystyle lambda nbsp 用来权衡增加间隔大小与确保 x i displaystyle vec x i nbsp 位于间隔的正确一侧之间的关系 因此 对于足够小的 l displaystyle lambda nbsp 值 如果输入数据是可以线性分类的 则软间隔SVM与硬间隔SVM将表现相同 但即使不可线性分类 仍能学习出可行的分类规则 非线性分类 编辑 nbsp 核机器 图中核函数F 将低维非线性可分离函数 左 计算成高维线性可分离函数 右 弗拉基米尔 瓦普尼克在1963年提出的原始最大间隔超平面算法构造了一个线性分类器 而1992年 伯恩哈德 E 博瑟 Bernhard E Boser 伊莎贝尔 M 盖昂 Isabelle M Guyon 和瓦普尼克提出了一种通过将核技巧 英语 kernel trick 最初由Aizerman et al 10 提出 应用于最大边界超平面来创建非线性分类器的方法 11 所得到的算法形式上类似 除了把点积换成了非线性核函数 这就允许算法在变换后的特征空间中拟合最大间隔超平面 该变换可以是非线性的 而变换空间是高维的 虽然分类器是变换后的特征空间中的超平面 但它在原始输入空间中可以是非线性的 值得注意的是 更高维的特征空间增加了支持向量机的泛化误差 但给定足够多的样本 算法仍能表现良好 12 常见的核函数包括 齊次多項式 k x i x j x i x j d displaystyle k vec x i vec x j vec x i cdot vec x j d nbsp 非齐次多项式 英语 Polynomial kernel k x i x j x i x j 1 d displaystyle k vec x i vec x j vec x i cdot vec x j 1 d nbsp 高斯径向基函数 k x i x j exp g x i x j 2 displaystyle k vec x i vec x j exp gamma vec x i vec x j 2 nbsp 其中 g gt 0 displaystyle gamma gt 0 nbsp 有时参数化表示 g 1 2 s 2 displaystyle gamma 1 2 sigma 2 nbsp 双曲正切 k x i x j tanh k x i x j c displaystyle k vec x i vec x j tanh kappa vec x i cdot vec x j c nbsp 其中一些 而非所有 k gt 0 displaystyle kappa gt 0 nbsp 且 c lt 0 displaystyle c lt 0 nbsp 由等式 k x i x j f x i f x j displaystyle k vec x i vec x j varphi vec x i cdot varphi vec x j nbsp 核函数与变换 f x i displaystyle varphi vec x i nbsp 有关 变换空间中也有 w 值 w i a i y i f x i displaystyle textstyle vec w sum i alpha i y i varphi vec x i nbsp 与 w 的点积也要用核技巧来计算 即 w f x i a i y i k x i x displaystyle textstyle vec w cdot varphi vec x sum i alpha i y i k vec x i vec x nbsp 计算SVM分类器 编辑计算 软间隔 SVM分类器等同于使下面表达式最小化 1 n i 1 n max 0 1 y i w x i b l w 2 2 displaystyle left frac 1 n sum i 1 n max left 0 1 y i w cdot x i b right right lambda lVert w rVert 2 qquad 2 nbsp 如上所述 由于我们关注的是软间隔分类器 l displaystyle lambda nbsp 选择足够小的值就能得到线性可分类输入数据的硬间隔分类器 下面会详细介绍将 2 简化为二次规划问题的经典方法 之后会讨论一些最近才出现的方法 如次梯度下降法和坐标下降法 原型 编辑 最小化 2 可以用下面的方式改写为目标函数可微的约束优化问题 对所有 i 1 n displaystyle i in 1 ldots n nbsp 我们引入变量 z i max 0 1 y i w x i b displaystyle zeta i max left 0 1 y i w cdot x i b right nbsp 注意到 z i displaystyle zeta i nbsp 是满足 y i w x i b 1 z i displaystyle y i w cdot x i b geq 1 zeta i nbsp 的最小非负数 因此 我们可以将优化问题叙述如下minimize 1 n i 1 n z i l w 2 displaystyle text minimize frac 1 n sum i 1 n zeta i lambda w 2 nbsp subject to y i x i w b 1 z i and z i 0 for all i displaystyle text subject to y i x i cdot w b geq 1 zeta i text and zeta i geq 0 text for all i nbsp 这就叫做原型问题 对偶型 编辑通过求解上述问题的拉格朗日对偶 英语 Duality optimization 得到简化的问题maximize f c 1 c n i 1 n c i 1 2 i 1 n j 1 n y i c i x i x j y j c j displaystyle text maximize f c 1 ldots c n sum i 1 n c i frac 1 2 sum i 1 n sum j 1 n y i c i x i cdot x j y j c j nbsp subject to i 1 n c i y i 0 and 0 c i 1 2 n l for all i displaystyle text subject to sum i 1 n c i y i 0 text and 0 leq c i leq frac 1 2n lambda text for all i nbsp 这就叫做对偶问题 由于对偶最小化问题是受线性约束的 c i displaystyle c i nbsp 的二次函数 所以它可以通过二次规划算法高效地解出 这里 变量 c i displaystyle c i nbsp 定义为满足w i 1 n c i y i x i displaystyle vec w sum i 1 n c i y i vec x i nbsp 此外 当 x i displaystyle vec x i nbsp 恰好在间隔的正确一侧时 c i 0 displaystyle c i 0 nbsp 且当 x i displaystyle vec x i nbsp 位于间隔的边界时 0 lt c i lt 2 n l 1 displaystyle 0 lt c i lt 2n lambda 1 nbsp 因此 w displaystyle vec w nbsp 可以写为支持向量的线性组合 可以通过在间隔的边界上找到一个 x i displaystyle vec x i nbsp 并求解y i w x i b 1 b y i w x i displaystyle y i vec w cdot vec x i b 1 iff b y i vec w cdot vec x i nbsp 得到偏移量 b displaystyle b nbsp 注意由于 y i 1 displaystyle y i pm 1 nbsp 因而 y i 1 y i displaystyle y i 1 y i nbsp 核技巧 编辑 假设我们要学习与变换后数据点 f x i displaystyle varphi vec x i nbsp 的线性分类规则对应的非线性分类规则 此外 我们有一个满足 k x i x j f x i f x j displaystyle k vec x i vec x j varphi vec x i cdot varphi vec x j nbsp 的核函数 k displaystyle k nbsp 我们知道变换空间中的分类向量 w displaystyle vec w nbsp 满足w i 1 n c i y i f x i displaystyle vec w sum i 1 n c i y i varphi vec x i nbsp 其中 c i displaystyle c i nbsp 可以通过求解优化问题maximize f c 1 c n i 1 n c i 1 2 i 1 n j 1 n y i c i f x i f x j y j c j i 1 n c i 1 2 i 1 n j 1 n y i c i k x i x j y j c j displaystyle begin aligned text maximize f c 1 ldots c n amp sum i 1 n c i frac 1 2 sum i 1 n sum j 1 n y i c i varphi vec x i cdot varphi vec x j y j c j amp sum i 1 n c i frac 1 2 sum i 1 n sum j 1 n y i c i k vec x i vec x j y j c j end aligned nbsp subject to i 1 n c i y i 0 and 0 c i 1 2 n l for all i displaystyle text subject to sum i 1 n c i y i 0 text and 0 leq c i leq frac 1 2n lambda text for all i nbsp 得到 与前面一样 可以使用二次规划来求解系数 c i displaystyle c i nbsp 同样 我们可以找到让 0 lt c i lt 2 n l 1 displaystyle 0 lt c i lt 2n lambda 1 nbsp 的索引 i displaystyle i nbsp 使得 f x i displaystyle varphi vec x i nbsp 位于变换空间中间隔的边界上 然后求解b w f x i y i k 1 n c k y k f x k f x i y i k 1 n c k y k k x k x i y i displaystyle begin aligned b vec w cdot varphi vec x i y i amp left sum k 1 n c k y k varphi vec x k cdot varphi vec x i right y i amp left sum k 1 n c k y k k vec x k vec x i right y i end aligned nbsp 最后 可以通过计算下式来分类新点z sgn w f z b sgn i 1 n c i y i k x i z b displaystyle vec z mapsto operatorname sgn vec w cdot varphi vec z b operatorname sgn left left sum i 1 n c i y i k vec x i vec z right b right nbsp 现代方法 编辑 用于找到SVM分类器的最近的算法包括次梯度下降和坐标下降 当处理大的稀疏数据集时 这两种技术已经被证明有着显著的优点 当存在许多训练实例时次梯度法是特别有效的 并且当特征空间的维度高时 坐标下降特别有效 次梯度下降 编辑SVM的次梯度下降算法直接用表达式f w b 1 n i 1 n max 0 1 y i w x i b l w 2 displaystyle f vec w b left frac 1 n sum i 1 n max left 0 1 y i w cdot x i b right right lambda lVert w rVert 2 nbsp 注意 f displaystyle f nbsp 是 w displaystyle vec w nbsp 与 b displaystyle b nbsp 的凸函数 因此 可以采用传统的梯度下降 或SGD 英语 Stochastic gradient descent 方法 其中不是在函数梯度的方向上前进 而是在从函数的次梯度中选出的向量的方向上前进 该方法的优点在于 对于某些实现 迭代次数不随着数据点的数量 n displaystyle n nbsp 而增加或减少 13 坐标下降 编辑 SVM的坐标下降算法基于对偶问题maximize f c 1 c n i 1 n c i 1 2 i 1 n j 1 n y i c i x i x j y j c j displaystyle text maximize f c 1 ldots c n sum i 1 n c i frac 1 2 sum i 1 n sum j 1 n y i c i x i cdot x j y j c j nbsp subject to i 1 n c i y i 0 and 0 c i 1 2 n l for all i displaystyle text subject to sum i 1 n c i y i 0 text and 0 leq c i leq frac 1 2n lambda text for all i nbsp 对所有 i 1 n displaystyle i in 1 ldots n nbsp 进行迭代 使系数 c i displaystyle c i nbsp 的方向与 f c i displaystyle partial f partial c i nbsp 一致 然后 将所得的系数向量 c 1 c n displaystyle c 1 ldots c n nbsp 投影到满足给定约束的最接近的系数向量 通常使用欧氏距离 然后重复该过程 直到获得接近最佳的系数向量 所得的算法在实践中运行非常快 尽管已经证明的性能保证很少 14 性质 编辑SVM属于广义线性分类器的一族 并且可以解释为感知器的延伸 它们也可以被认为是吉洪诺夫正则化的特例 它们有一个特别的性质 就是可以同时最小化经验误差和最大化几何边缘区 因此它们也被称为最大间隔分类器 Meyer Leisch和Hornik对SVM与其他分类器进行了比较 15 参数选择 编辑 SVM的有效性取决于核函数 核参数和软间隔参数 C 的选择 通常会选只有一个参数 g displaystyle gamma nbsp 的高斯核 C 和 g displaystyle gamma nbsp 的最佳组合通常通过在 C 和 g displaystyle gamma nbsp 为指数增长序列下网格搜索 英语 grid search 来选取 例如 C 2 5 2 3 2 13 2 15 displaystyle C in 2 5 2 3 dots 2 13 2 15 nbsp g 2 15 2 13 2 1 2 3 displaystyle gamma in 2 15 2 13 dots 2 1 2 3 nbsp 通常情况下 使用交叉驗證来检查参数选择的每一个组合 并选择具有最佳交叉验证精度的参数 或者 最近在贝叶斯优化中的工作可以用于选择C和g 通常需要评估比网格搜索少得多的参数组合 或者 贝叶斯优化 英语 Bayesian optimization 的最近进展可以用于选择 C 和 g displaystyle gamma nbsp 通常需要计算的参数组合比网格搜索少得多 然后 使用所选择的参数在整个训练集上训练用于测试和分类新数据的最终模型 16 问题 编辑 SVM的潜在缺点包括以下方面 需要对输入数据进行完全标记 未校准类成员概率 SVM仅直接适用于两类任务 因此 必须应用将多类任务减少到几个二元问题的算法 请参阅多类SVM一节 解出的模型的参数很难理解 延伸 编辑支持向量聚類 支持向量聚類是一種建立在核函數上的類似方法 同適用於非監督學習和數據挖掘 它被認為是數據科學中的一種基本方法 轉導支持向量機 多元分類支持向量機 SVM算法最初是為二值分類問題設計的 實現多分類的主要方法是將一個多分類問題轉化為多個二分類問題 常見方法包括 一對多法 和 一對一法 一對多法是將某個類別的樣本歸為一類 其他剩餘的樣本歸為另一類 這樣k個類別的樣本就構造出了k個二分類SVM 一對一法則是在任意兩類樣本之間設計一個SVM 支持向量回歸 結構化支持向量機 支持向量機可以被推廣為結構化的支持向量機 推廣後標籤空間是結構化的並且可能具有無限的大小 实现 编辑最大间隔超平面的参数是通过求解优化得到的 有几种专门的算法可用于快速解决由SVM产生的QP问题 它们主要依靠启发式算法将问题分解成更小 更易于处理的子问题 另一种方法是使用内点法 其使用类似牛顿法的迭代找到卡羅需 庫恩 塔克條件下原型和对偶型的解 17 这种方法不是去解决一系列分解问题 而是直接完全解决该问题 为了避免求解核矩阵很大的线性系统 在核技巧中经常使用矩阵的低秩近似 另一个常见的方法是普莱特的序列最小优化算法 SMO 它把问题分成了若干个可以解析求解的二维子问题 这样就可以避免使用数值优化算法和矩阵存储 18 线性支持向量机的特殊情况可以通过用于优化其类似问题邏輯斯諦迴歸的同类算法更高效求解 这类算法包括次梯度下降法 如PEGASOS 19 和坐标下降法 如LIBLINEAR 20 LIBLINEAR有一些引人注目的训练时间上的特性 每次收敛迭代花费在读取训练数据上的时间是线性的 而且这些迭代还具有Q 线性收敛 英语 Rate of convergence 特性 使得算法非常快 一般的核SVM也可以用次梯度下降法 P packSVM 21 更快求解 在允许并行化时求解速度尤其快 许多机器学习工具包都可以使用核SVM 有LIBSVM 英语 LIBSVM MATLAB SAS 22 SVMlight kernlab 23 scikit learn Shogun 英语 Shogun toolbox Weka Shark 24 JKernelMachines 25 OpenCV等 参见 编辑核机器 英语 Kernel machines 费希尔核 英语 Fisher kernel 多项式核函数 英语 Polynomial kernel 预测分析 相关向量机 函数形式与SVM相同的概率稀疏核模型 序列最小优化算法 空间映射 英语 Space mapping 参考文献 编辑引用 编辑 1 0 1 1 Cortes C Vapnik V Support vector networks Machine Learning 英语 Machine Learning journal 1995 20 3 273 297 doi 10 1007 BF00994018 Ben Hur Asa Horn David Siegelmann Hava and Vapnik Vladimir Support vector clustering 2001 Journal of Machine Learning Research 2 125 137 Press William H Teukolsky Saul A Vetterling William T Flannery B P Section 16 5 Support Vector Machines Numerical Recipes The Art of Scientific Computing 3rd New York Cambridge University Press 2007 2016 11 06 ISBN 978 0 521 88068 8 原始内容存档于2011 08 11 Vapnik V Invited Speaker IPMU Information Processing and Management 2014 Barghout Lauren Spatial Taxon Information Granules as Used in Iterative Fuzzy Decision Making for Image Segmentation Granular Computing and Decision Making Springer International Publishing 2015 285 318 Bilwaj Gaonkar Christos Davatzikos Analytic estimation of statistical significance maps for support vector machine based multi variate image analysis and classification R Cuingnet C Rosso M Chupin S Lehericy D Dormont H Benali Y Samson and O Colliot Spatial regularization of SVM for the detection of diffusion alterations associated with stroke outcome Medical Image Analysis 2011 15 5 729 737 Statnikov A Hardin D amp Aliferis C 2006 Using SVM weight based methods to identify causally relevant and non causally relevant variables sign 1 4 Boser B E Guyon I M Vapnik V N A training algorithm for optimal margin classifiers Proceedings of the fifth annual workshop on Computational learning theory COLT 92 1992 144 ISBN 089791497X doi 10 1145 130385 130401 Aizerman Mark A Braverman Emmanuel M amp Rozonoer Lev I Theoretical foundations of the potential function method in pattern recognition learning Automation and Remote Control 1964 25 821 837 Boser B E Guyon I M Vapnik V N A training algorithm for optimal margin classifiers Proceedings of the fifth annual workshop on Computational learning theory COLT 92 1992 144 ISBN 089791497X doi 10 1145 130385 130401 Jin Chi Wang Liwei Dimensionality dependent PAC Bayes margin bound Advances in Neural Information Processing Systems 2012 2016 11 06 原始内容存档于2015 04 02 Shalev Shwartz Shai Singer Yoram Srebro Nathan Cotter Andrew Pegasos primal estimated sub gradient solver for SVM Mathematical Programming 2010 10 16 127 1 3 30 2016 11 06 ISSN 0025 5610 doi 10 1007 s10107 010 0420 4 原始内容存档于2016 08 25 Hsieh Cho Jui Chang Kai Wei Lin Chih Jen Keerthi S Sathiya Sundararajan S A Dual Coordinate Descent Method for Large scale Linear SVM Proceedings of the 25th International Conference on Machine Learning ICML 08 New York NY USA ACM 2008 01 01 408 415 ISBN 978 1 60558 205 4 doi 10 1145 1390156 1390208 Meyer D Leisch F Hornik K The support vector machine under test Neurocomputing 2003 55 169 doi 10 1016 S0925 2312 03 00431 4 Hsu Chih Wei Chang Chih Chung amp Lin Chih Jen A Practical Guide to Support Vector Classification PDF 技术报告 Department of Computer Science and Information Engineering National Taiwan University 2003 2016 11 06 原始内容存档 PDF 于2013 06 25 Ferris M C Munson T S Interior Point Methods for Massive Support Vector Machines SIAM Journal on Optimization 2002 13 3 783 doi 10 1137 S1052623400374379 John C Platt Sequential Minimal Optimization A Fast Algorithm for Training Support Vector Machines PDF NIPS 1998 2016 11 06 原始内容存档 PDF 于2015 07 02 Shai Shalev Shwartz Yoram Singer Nathan Srebro Pegasos Primal Estimated sub GrAdient SOlver for SVM PDF ICML 2007 2016 11 06 原始内容存档 PDF 于2013 12 15 R E Fan K W Chang C J Hsieh X R Wang C J Lin LIBLINEAR A library for large linear classification Journal of Machine Learning Research 英语 Journal of Machine Learning Research 2008 9 1871 1874 Zeyuan Allen Zhu et al P packSVM Parallel Primal grAdient desCent Kernel SVM PDF ICDM 2009 2016 11 06 原始内容存档 PDF 于2014 04 07 SAS 页面存档备份 存于互联网档案馆 kernlab Shark 页面存档备份 存于互联网档案馆 JKernelMachines 页面存档备份 存于互联网档案馆 来源 编辑 Theodoridis Sergios and Koutroumbas Konstantinos Pattern Recognition 4th Edition Academic Press 2009 ISBN 978 1 59749 272 0 Cristianini Nello and Shawe Taylor John An Introduction to Support Vector Machines and other kernel based learning methods Cambridge University Press 2000 ISBN 0 521 78019 5 SVM Book Huang Te Ming Kecman Vojislav and Kopriva Ivica 2006 Kernel Based Algorithms for Mining Huge Data Sets 页面存档备份 存于互联网档案馆 in Supervised Semi supervised and Unsupervised Learning Springer Verlag Berlin Heidelberg 260 pp 96 illus Hardcover ISBN 3 540 31681 7 Kecman Vojislav Learning and Soft Computing Support Vector Machines Neural Networks Fuzzy Logic Systems 页面存档备份 存于互联网档案馆 The MIT Press Cambridge MA 2001 Scholkopf Bernhard and Smola Alexander J Learning with Kernels MIT Press Cambridge MA 2002 ISBN 0 262 19475 9 Scholkopf Bernhard Burges Christopher J C and Smola Alexander J editors Advances in Kernel Methods Support Vector Learning MIT Press Cambridge MA 1999 ISBN 0 262 19416 3 Shawe Taylor John and Cristianini Nello Kernel Methods for Pattern Analysis 页面存档备份 存于互联网档案馆 Cambridge University Press 2004 ISBN 0 521 81397 2 Kernel Methods Book Steinwart Ingo and Christmann Andreas Support Vector Machines Springer Verlag New York 2008 ISBN 978 0 387 77241 7 SVM Book Tan Peter Jing and Dowe David L 页面存档备份 存于互联网档案馆 2004 MML Inference of Oblique Decision Trees 页面存档备份 存于互联网档案馆 Lecture Notes in Artificial Intelligence LNAI 3339 Springer Verlag pp 1082 1088 This paper uses minimum message length MML and actually incorporates probabilistic support vector machines in the leaves of decision trees Vapnik Vladimir N The Nature of Statistical Learning Theory Springer Verlag 1995 ISBN 0 387 98780 0 Vapnik Vladimir N and Kotz Samuel Estimation of Dependences Based on Empirical Data Springer 2006 ISBN 0 387 30865 2 510 pages this is a reprint of Vapnik s early book describing philosophy behind SVM approach The 2006 Appendix describes recent development Fradkin Dmitriy and Muchnik Ilya Support Vector Machines for Classification in Abello J and Carmode G Eds Discrete Methods in Epidemiology DIMACS Series in Discrete Mathematics and Theoretical Computer Science volume 70 pp 13 20 2006 Succinctly describes theoretical ideas behind SVM Bennett Kristin P and Campbell Colin Support Vector Machines Hype or Hallelujah 页面存档备份 存于互联网档案馆 SIGKDD Explorations 2 2 2000 1 13 Excellent introduction to SVMs with helpful figures Ivanciuc Ovidiu Applications of Support Vector Machines in Chemistry 页面存档备份 存于互联网档案馆 in Reviews in Computational Chemistry Volume 23 2007 pp 291 400 Catanzaro Bryan Sundaram Narayanan and Keutzer Kurt Fast Support Vector Machine Training and Classification on Graphics Processors in International Conference on Machine Learning 2008 Campbell Colin and Ying Yiming Learning with Support Vector Machines 页面存档备份 存于互联网档案馆 2011 Morgan and Claypool ISBN 978 1 60845 616 1 Ben Hur Asa Horn David Siegelmann Hava and Vapnik Vladimir Support vector clustering 2001 Journal of Machine Learning Research 2 125 137 外部链接 编辑www support vector net The key book about the method An Introduction to Support Vector Machines with online software Burges Christopher J C A Tutorial on Support Vector Machines for Pattern Recognition 页面存档备份 存于互联网档案馆 Data Mining and Knowledge Discovery 2 121 167 1998 www kernel machines org 页面存档备份 存于互联网档案馆 general information and collection of research papers www support vector machines org 页面存档备份 存于互联网档案馆 Literature Review Software Links related to Support Vector Machines Academic Site svmtutorial online 页面存档备份 存于互联网档案馆 A simple introduction to SVM easily accessible to anyone with basic background in mathematics videolectures net 页面存档备份 存于互联网档案馆 SVM related video lectures Karatzoglou Alexandros et al Support Vector Machines in R 页面存档备份 存于互联网档案馆 Journal of Statistical Software April 2006 Volume 15 Issue 9 libsvm 页面存档备份 存于互联网档案馆 LIBSVM is a popular library of SVM learners liblinear 页面存档备份 存于互联网档案馆 is a library for large linear classification including some SVMs Shark is a C machine learning library implementing various types of SVMs dlib 页面存档备份 存于互联网档案馆 is a C library for working with kernel methods and SVMs SVM light is a collection of software tools for learning and classification using SVM SVMJS live demo 页面存档备份 存于互联网档案馆 is a GUI demo for JavaScript implementation of SVMs Gesture Recognition Toolkit 页面存档备份 存于互联网档案馆 contains an easy to use wrapper for libsvm 页面存档备份 存于互联网档案馆 取自 https zh wikipedia org w index php title 支持向量机 amp oldid 79462922, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。