fbpx
维基百科

核主成分分析

核主成分分析(英語:kernel principal component analysis,简称kernel PCA)是多变量统计领域中的一种分析方法,是使用核方法英语Kernel method主成分分析的非线性扩展,即将原数据通过核映射到再生核希尔伯特空间英语Reproducing kernel Hilbert space后再使用原本线性的主成分分析。[1]

背景:线性主成分分析 编辑

线性PCA对于中心化后的数据进行分析,即

 ,

其中  个多变量样本之一。之后将协方差矩阵

 

对角化。换言之,即是对协方差矩阵进行特征分解

 

或写作

 .[2]

引入核方法 编辑

一般而言,N个数据点在 维空间中是线性不可分的,但它们在 维空间中则是几乎必然线性可分的。这也意味着,如果我们能将N个数据点 映射到一个N维空间

  其中  

中,就能很容易地构建一个超平面将数据点作任意聚类。不过由于经 映射后的向量是线性无关的,我们无法再像在线性PCA中那样显式地对协方差进行特征分解。

而在核PCA中,我们能够使用任意非平凡的函数 ,但无需显式地计算在高维空间中的值,使我们得以使用非常高维的 。为了避免直接在 -空间(即特征空间)中操作,我们可以定义一个 的核

 

来代表特征空间的内积空间(见格拉姆矩阵)。这一对偶形式使我们能够进行主成分分析,同时又不用直接在 -空间中解协方差矩阵的特征值与特征向量。K中每一列的N个元素代表了转换后的一个数据点与所有N个数据点的点积。

由于我们并不在特征空间中进行计算,核PCA方法不直接计算主成分,而是计算数据点在这些主成分上的投影。特征空间中的一点在第k个主成分 上的投影为

 

其中 代表点积,即核 中的元素。上式中剩下的部分 可以通过解特征方程

 

得到,其中N为数据点的数量,  则分别为 的特征值与特征向量。为了归一化 ,我们要求

 

值得注意的是,无论是否在原空间中对 中心化,我们无法保证数据在特征空间中是中心化的。由于PCA要求对数据中心化,我们可以对K“中心化”:

 

其中 代表一个每个元素值皆为  矩阵。于是我们可以使用 进行前述的核PCA计算。[2]

在使用核PCA时,还有一点值得注意。在线性PCA中,我们可以通过特征值的大小对特征向量进行排序,以度量每个主成分所能够解释的数据方差。这对于数据降维十分有用,而这一技巧也可以用在核PCA中。不过,在实践中有时会发现得到所有方差皆相同,这通常是源于错误选择了核的尺度。

大数据集 编辑

在实践中,大数据集会使K变得很大,从而导致存储问题。一种解决方式是先对数据集聚类,然后再对每一类的均值进行核PCA计算。有时即便使用此种方法仍会导致相对很大的K,此时我们可以只计算K中最大的P个特征值及相对应的特征向量。

示例 编辑

 
应用核PCA前的数据点
 
使用核 进行核PCA分析后的数据点
 
使用高斯核进行核PCA分析后的数据点

考虑图中所示的三组同心点云,我们试图使用核PCA识别这三组。图中各点的颜色并不是算法的一部分,仅用于展示各组数据点在变换前后的位置。

首先,我们使用核

 

进行核PCA处理,得到的结果如第二张图所示。

其次,我们再使用高斯核

 

该核是数据接近程度的一种度量,当数据点重合时为1,而当数据点相距无限远时则为0。结果为第三张图所示。

此时我们注意到,仅通过第一主成分就可以区别这三组数据点。而这对于线性PCA而言是不可实现的,因而线性PCA只能在给定维(此处为二维)空间中操作,而此时同心点云是线性不可分的。

应用 编辑

核PCA方法还可用于新奇检测(novelty detection)[3]与数据降噪[4]等。

参考文献 编辑

  1. ^ Schölkopf, Bernhard. Nonlinear Component Analysis as a Kernel Eigenvalue Problem. Neural Computation. 1998, 10: 1299–1319. doi:10.1162/089976698300017467. 
  2. ^ 2.0 2.1 Nonlinear Component Analysis as a Kernel Eigenvalue Problem (Technical Report) (PDF). [2018-09-15]. (原始内容 (PDF)于2020-09-19). 
  3. ^ Kernel PCA for Novelty Detection. Pattern Recognition. 2007, 40: 863–874 [2018-09-15]. doi:10.1016/j.patcog.2006.07.009. (原始内容于2020-02-06). 
  4. ^ Kernel PCA and De-Noising in Feature Spaces. NIPS, 1999. [2018-09-15]. (原始内容于2010-07-02). 

核主成分分析, 英語, kernel, principal, component, analysis, 简称kernel, 是多变量统计领域中的一种分析方法, 是使用核方法, 英语, kernel, method, 对主成分分析的非线性扩展, 即将原数据通过核映射到再生核希尔伯特空间, 英语, reproducing, kernel, hilbert, space, 后再使用原本线性的主成分分析, 目录, 背景, 线性主成分分析, 引入核方法, 大数据集, 示例, 应用, 参考文献背景, 线性主成分分析, 编辑线性. 核主成分分析 英語 kernel principal component analysis 简称kernel PCA 是多变量统计领域中的一种分析方法 是使用核方法 英语 Kernel method 对主成分分析的非线性扩展 即将原数据通过核映射到再生核希尔伯特空间 英语 Reproducing kernel Hilbert space 后再使用原本线性的主成分分析 1 目录 1 背景 线性主成分分析 2 引入核方法 3 大数据集 4 示例 5 应用 6 参考文献背景 线性主成分分析 编辑线性PCA对于中心化后的数据进行分析 即 1 N i 1 N x i 0 displaystyle frac 1 N sum i 1 N mathbf x i mathbf 0 nbsp 其中x i displaystyle mathbf x i nbsp 是N displaystyle N nbsp 个多变量样本之一 之后将协方差矩阵 C 1 N i 1 N x i x i displaystyle C frac 1 N sum i 1 N mathbf x i mathbf x i top nbsp 对角化 换言之 即是对协方差矩阵进行特征分解 l v C v displaystyle lambda mathbf v C mathbf v nbsp 或写作 l x i v x i C v i 1 N displaystyle lambda mathbf x i top mathbf v mathbf x i top C mathbf v quad forall i in 1 N nbsp 2 引入核方法 编辑一般而言 N个数据点在d lt N displaystyle d lt N nbsp 维空间中是线性不可分的 但它们在d N displaystyle d geq N nbsp 维空间中则是几乎必然线性可分的 这也意味着 如果我们能将N个数据点x i displaystyle mathbf x i nbsp 映射到一个N维空间 F x i displaystyle Phi mathbf x i nbsp 其中 F R d R N displaystyle Phi mathbb R d to mathbb R N nbsp 中 就能很容易地构建一个超平面将数据点作任意聚类 不过由于经F displaystyle Phi nbsp 映射后的向量是线性无关的 我们无法再像在线性PCA中那样显式地对协方差进行特征分解 而在核PCA中 我们能够使用任意非平凡的函数F displaystyle Phi nbsp 但无需显式地计算在高维空间中的值 使我们得以使用非常高维的F displaystyle Phi nbsp 为了避免直接在F displaystyle Phi nbsp 空间 即特征空间 中操作 我们可以定义一个N N displaystyle N times N nbsp 的核 K k x y F x F y F x T F y displaystyle K k mathbf x mathbf y Phi mathbf x Phi mathbf y Phi mathbf x T Phi mathbf y nbsp 来代表特征空间的内积空间 见格拉姆矩阵 这一对偶形式使我们能够进行主成分分析 同时又不用直接在F displaystyle Phi nbsp 空间中解协方差矩阵的特征值与特征向量 K中每一列的N个元素代表了转换后的一个数据点与所有N个数据点的点积 由于我们并不在特征空间中进行计算 核PCA方法不直接计算主成分 而是计算数据点在这些主成分上的投影 特征空间中的一点在第k个主成分V k displaystyle V k nbsp 上的投影为 V k T F x i 1 N a i k F x i T F x displaystyle mathbf V k T Phi mathbf x left sum i 1 N mathbf a i k Phi mathbf x i right T Phi mathbf x nbsp 其中F x i T F x displaystyle Phi mathbf x i T Phi mathbf x nbsp 代表点积 即核K displaystyle K nbsp 中的元素 上式中剩下的部分a i k displaystyle mathbf a i k nbsp 可以通过解特征方程 N l a K a displaystyle N lambda mathbf a K mathbf a nbsp 得到 其中N为数据点的数量 l displaystyle lambda nbsp 与a displaystyle mathbf a nbsp 则分别为K displaystyle K nbsp 的特征值与特征向量 为了归一化a k displaystyle mathbf a k nbsp 我们要求 1 V k T V k displaystyle 1 mathbf V k T mathbf V k nbsp 值得注意的是 无论是否在原空间中对x displaystyle x nbsp 中心化 我们无法保证数据在特征空间中是中心化的 由于PCA要求对数据中心化 我们可以对K 中心化 K K 1 N K K 1 N 1 N K 1 N displaystyle K K mathbf 1 N K K mathbf 1 N mathbf 1 N K mathbf 1 N nbsp 其中1 N displaystyle mathbf 1 N nbsp 代表一个每个元素值皆为1 N displaystyle 1 N nbsp 的N N displaystyle N times N nbsp 矩阵 于是我们可以使用K displaystyle K nbsp 进行前述的核PCA计算 2 在使用核PCA时 还有一点值得注意 在线性PCA中 我们可以通过特征值的大小对特征向量进行排序 以度量每个主成分所能够解释的数据方差 这对于数据降维十分有用 而这一技巧也可以用在核PCA中 不过 在实践中有时会发现得到所有方差皆相同 这通常是源于错误选择了核的尺度 大数据集 编辑在实践中 大数据集会使K变得很大 从而导致存储问题 一种解决方式是先对数据集聚类 然后再对每一类的均值进行核PCA计算 有时即便使用此种方法仍会导致相对很大的K 此时我们可以只计算K中最大的P个特征值及相对应的特征向量 示例 编辑 nbsp 应用核PCA前的数据点 nbsp 使用核k x y x T y 1 2 displaystyle k boldsymbol x boldsymbol y boldsymbol x mathrm T boldsymbol y 1 2 nbsp 进行核PCA分析后的数据点 nbsp 使用高斯核进行核PCA分析后的数据点考虑图中所示的三组同心点云 我们试图使用核PCA识别这三组 图中各点的颜色并不是算法的一部分 仅用于展示各组数据点在变换前后的位置 首先 我们使用核 k x y x T y 1 2 displaystyle k boldsymbol x boldsymbol y boldsymbol x mathrm T boldsymbol y 1 2 nbsp 进行核PCA处理 得到的结果如第二张图所示 其次 我们再使用高斯核 k x y e x y 2 2 s 2 displaystyle k boldsymbol x boldsymbol y e frac boldsymbol x boldsymbol y 2 2 sigma 2 nbsp 该核是数据接近程度的一种度量 当数据点重合时为1 而当数据点相距无限远时则为0 结果为第三张图所示 此时我们注意到 仅通过第一主成分就可以区别这三组数据点 而这对于线性PCA而言是不可实现的 因而线性PCA只能在给定维 此处为二维 空间中操作 而此时同心点云是线性不可分的 应用 编辑核PCA方法还可用于新奇检测 novelty detection 3 与数据降噪 4 等 参考文献 编辑 Scholkopf Bernhard Nonlinear Component Analysis as a Kernel Eigenvalue Problem Neural Computation 1998 10 1299 1319 doi 10 1162 089976698300017467 2 0 2 1 Nonlinear Component Analysis as a Kernel Eigenvalue Problem Technical Report PDF 2018 09 15 原始内容存档 PDF 于2020 09 19 Kernel PCA for Novelty Detection Pattern Recognition 2007 40 863 874 2018 09 15 doi 10 1016 j patcog 2006 07 009 原始内容存档于2020 02 06 Kernel PCA and De Noising in Feature Spaces NIPS 1999 2018 09 15 原始内容存档于2010 07 02 取自 https zh wikipedia org w index php title 核主成分分析 amp oldid 77506102, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。