fbpx
维基百科

主成分分析

在多元统计分析中,主成分分析(英語:Principal components analysisPCA)是一種统计分析、簡化數據集的方法。它利用正交变换来对一系列可能相关的变量的观测值进行线性变换,从而投影为一系列线性不相关变量的值,这些不相关变量称为主成分(Principal Components)。具体地,主成分可以看做一个线性方程,其包含一系列线性系数来指示投影方向。PCA对原始数据的正则化或预处理敏感(相对缩放)。

一個高斯分布平均值為(1, 3),標準差在(0.878, 0.478)方向上為3、在其正交方向上為1的主成分分析。黑色的兩個向量是此分布的共變異數矩陣特征向量,其長度為對應的特征值之平方根,並以分布的平均值為原點。

基本思想:

  • 将坐标轴中心移到数据的中心,然后旋转坐标轴,使得数据在C1轴上的方差最大,即全部n个数据个体在该方向上的投影最为分散。意味着更多的信息被保留下来。C1成为第一主成分
  • C2第二主成分:找一个C2,使得C2与C1的协方差(相关系数)为0,以免与C1信息重叠,并且使数据在该方向的方差尽量最大。
  • 以此类推,找到第三主成分,第四主成分……第p个主成分。p个随机变量可以有p个主成分[1]

主成分分析经常用于减少数据集的维数,同时保留数据集當中对方差贡献最大的特征。这是通过保留低維主成分,忽略高維主成分做到的。这样低維成分往往能够保留住数据的最重要部分。但是,这也不是一定的,要视具体应用而定。由于主成分分析依赖所给数据,所以数据的准确性对分析结果影响很大。

主成分分析由卡尔·皮尔逊於1901年發明[2],用於分析數據及建立數理模型,在原理上与主轴定理英语Principal axis theorem相似。之后在1930年左右由哈罗德·霍特林独立发展并命名。依据应用领域的不同,在信号处理中它也叫做离散K-L 转换(discrete Karhunen–Loève transform (KLT))。其方法主要是通過對共變異數矩陣進行特征分解[3],以得出數據的主成分(即特征向量)與它們的權值(即特征值[4])。PCA是最簡單的以特征量分析多元統計分布的方法。其結果可以理解為對原數據中的方差做出解釋:哪一個方向上的數據值對方差的影響最大?換而言之,PCA提供了一種降低數據維度的有效辦法;如果分析者在原數據中除掉最小的特征值所對應的成分,那麼所得的低維度數據必定是最優化的(也即,這樣降低維度必定是失去訊息最少的方法)。主成分分析在分析複雜數據時尤為有用,比如人臉識別

PCA是最简单的以特征量分析多元统计分布的方法。通常,这种运算可以被看作是揭露数据的内部结构,從而更好地展現数据的變異度。如果一个多元数据集是用高维数据空间之坐标系來表示的,那么PCA能提供一幅较低维度的图像,相當於数据集在讯息量最多之角度上的一個投影。这样就可以利用少量的主成分讓数据的维度降低了。

PCA 跟因子分析密切相关。因子分析通常包含更多特定領域底層結構的假設,並且求解稍微不同矩陣的特徵向量。

PCA 也跟典型相關分析(CCA)有關。CCA定義的坐標系可以最佳地描述兩個數據集之間的互協方差,而PCA定義了新的正交坐標系,能最佳地描述單個數據集當中的變異數。

数学定义

PCA的数学定义是:一个正交化线性变换,把数据变换到一个新的坐标系统中,使得这一数据的任何投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推[5]

定义一个 矩阵,  为去平均值(以平均值为中心移动至原点)的数据,其行为数据样本,列为数据类别(注意,这里定义的是  而不是 )。则 奇异值分解 ,其中  特征向量矩阵,  是奇异值矩阵,  特征向量矩阵。据此,

 

m < n − 1时,V 在通常情况下不是唯一定义的,而Y 则是唯一定义的。W 是一个正交矩阵YTWT=XT,且YT的第一列由第一主成分组成,第二列由第二主成分组成,依此类推。

为了得到一种降低数据维度的有效办法,我们可以利用WLX 映射到一个只应用前面L个向量的低维空间中去:

 

其中 ,且  單位矩陣

X 的单向量矩阵W相当于协方差矩阵特征向量 C = X XT,

 

欧几里得空间给定一组点数,第一主成分对应于通过多维空间平均点的一条线,同时保证各个点到这条直线距离的平方和最小。去除掉第一主成分后,用同样的方法得到第二主成分。依此类推。在Σ中的奇异值均为矩阵 XXT特征值的平方根。每一个特征值都与跟它们相关的方差是成正比的,而且所有特征值的总和等于所有点到它们的多维空间平均点距离的平方和。PCA提供了一种降低维度的有效办法,本质上,它利用正交变换将围绕平均点的点集中尽可能多的变量投影到第一维中去,因此,降低维度必定是失去讯息最少的方法。PCA具有保持子空间拥有最大方差的最优正交变换的特性。然而,当与离散余弦变换相比时,它需要更大的计算需求代价。非线性降维技术相对于PCA来说则需要更高的计算要求。

PCA对变量的缩放很敏感。如果我们只有两个变量,而且它们具有相同的样本方差,并且成正相关,那么PCA将涉及两个变量的主成分的旋转。但是,如果把第一个变量的所有值都乘以100,那么第一主成分就几乎和这个变量一样,另一个变量只提供了很小的贡献,第二主成分也将和第二个原始变量几乎一致。这就意味着当不同的变量代表不同的单位(如温度和质量)时,PCA是一种比较武断的分析方法。但是在Pearson的题为 "On Lines and Planes of Closest Fit to Systems of Points in Space"的原始文件里,是假设在欧几里得空间里不考虑这些。一种使PCA不那么武断的方法是使用变量缩放以得到单位方差。


讨论

通常,为了确保第一主成分描述的是最大方差的方向,我们会使用平均减法进行主成分分析。如果不执行平均减法,第一主成分有可能或多或少的对应于数据的平均值。另外,为了找到近似数据的最小均方误差,我们必须选取一个零均值[6]

假设零经验均值,数据集 X 的主成分w1可以被定义为:

 

为了得到第 k个主成分,必须先从X中减去前面的   个主成分:

 

然后把求得的第k个主成分带入数据集,得到新的数据集,继续寻找主成分。

 


PCA相当于在气象学中使用的经验正交函数(EOF),同时也类似于一个线性隐层神经网络。 隐含层 K 个神经元的权重向量收敛后,将形成一个由前 K 个主成分跨越空间的基础。但是与PCA不同的是,这种技术并不一定会产生正交向量。

PCA是一种很流行且主要的的模式识别技术。然而,它并不能最优化类别可分离性[7] 。另一种不考虑这一点的方法是线性判别分析。

符号和缩写表

Symbol符号 Meaning意义 Dimensions尺寸 Indices指数
  由所有数据向量集组成的数据矩阵,一列代表一个向量    
 
  数据集中列向量的个数   标量
  每个列向量的元素个数   标量
  子空间的维数,     标量
  经验均值向量    
  经验标准方差向量    
  所有的单位向量    
  对均值的偏离向量    
 
  Z-分数,利用均值和标准差计算得到    
 
  协方差矩阵    
 
  相关矩阵    
 
  C的所有特征向量集    
 
  主对角线为特征值的对角矩阵    
 
  基向量矩阵    
 
  XW矩阵的投影矩阵    
 

主成分分析的属性和限制

如上所述,主成分分析的结果依赖于变量的缩放。

主成分分析的适用性受到由它的派生物产生的某些假设[8] 的限制。

主成分分析和信息理论

通过使用降维来保存大部分数据信息的主成分分析的观点是不正确的。确实如此,当没有任何假设信息的信号模型时,主成分分析在降维的同时并不能保证信息的不丢失,其中信息是由香农熵[9]来衡量的。 基于假设得   也就是说,向量 x 是含有信息的目标信号 s 和噪声信号 n 之和,从信息论角度考虑主成分分析在降维上是最优的。

特别地,Linsker证明了如果 s 是高斯分布,且 n 是 与密度矩阵相应的协方差矩阵的高斯噪声,

使用统计方法计算PCA

以下是使用统计方法计算PCA的详细说明。但是请注意,如果利用奇异值分解(使用标准的软件)效果会更好。

我们的目标是把一个给定的具有 M 维的数据集X 变换成具有较小维度 L的数据集Y。现在要求的就是矩阵YY是矩阵X Karhunen–Loève变换。: 

组织数据集

假设有一组 M 个变量的观察数据,我们的目的是减少数据,使得能够用L 个向量来描述每个观察值,L < M。进一步假设,该数据被整理成一组具有N个向量的数据集,其中每个向量都代表M 个变量的单一观察数据。

  •  为列向量,其中每个列向量有M 行。
  • 将列向量放入M × N的单矩阵X 裡。

计算经验均值

  • 对每一维m = 1, ..., M计算经验均值
  • 将计算得到的均值放入一个 M × 1维的经验均值向量u
 

计算平均偏差

对于在最大限度地减少近似数据的均方误差的基础上找到一个主成分来说,均值减去法是该解决方案的不可或缺的组成部分[10] 。因此,我们继续如下步骤:

  • 从数据矩阵X的每一列中减去经验均值向量 u
  • 将平均减去过的数据存储在M × N矩阵B
 
其中h是一个长度为N的全为1的行向量:
 

求协方差矩阵

  • 从矩阵B 中找到M × M 的经验协方差矩阵C
 

其中  为期望值

 是最外层运算符

 是共轭转置运算符。

请注意,如果B完全由实数组成,那么共轭转置与正常的转置一样。

  • 为什么是N-1,而不是N,Bessel's correction[11]给出了解释

查找协方差矩阵的特征值和特征向量

  • 计算矩阵C 的特征向量
 
其中,DC的特征值对角矩阵,这一步通常会涉及到使用基于计算机的计算特征值和特征向量的算法。在很多矩阵代数系统中这些算法都是现成可用的,如R语言MATLAB,[12][13] Mathematica,[14] SciPy, IDL(交互式数据语言), 或者GNU Octave以及OpenCV
  • 矩阵DM × M的对角矩阵
  • 各个特征值和特征向量都是配对的,m个特征值对应m个特征向量。

参见

  • Correspondence analysis英语Correspondence analysis
  • Canonical correlation
  • CUR matrix approximation英语CUR matrix approximation (can replace of low-rank SVD approximation)
  • Detrended correspondence analysis英语Detrended correspondence analysis
  • Dynamic mode decomposition英语Dynamic mode decomposition
  • 特征脸(Eigenface)
  • 多線性主成分分析(Multilinear PCA)
  • Geometric data analysis英语Geometric data analysis
  • Factorial code英语Factorial code
  • 独立成分分析
  • 核主成分分析
  • 矩阵分解
  • Nonlinear dimensionality reduction
  • Oja's rule英语Oja's rule
  • Point distribution model英语Point distribution model (PCA applied to morphometry and computer vision)
  • Principal component regression英语Principal component regression
  • Singular spectrum analysis英语Singular spectrum analysis
  • 奇异值分解
  • Sparse PCA英语Sparse PCA
  • 变换编码
  • 最小二乘法
  • Low-rank approximation英语Low-rank approximation

注释

  1. ^ 主成分分析(principal components analysis, PCA)——无监督学习. (原始内容于2020-08-19). 
  2. ^ Pearson, K. (PDF). Philosophical Magazine. 1901, 2 (6): 559–572 [2012-01-24]. (原始内容 (PDF)存档于2013-10-20). 
  3. ^ Abdi. H., & Williams, L.J. Principal component analysis.. Wiley Interdisciplinary Reviews: Computational Statistics,. 2010, 2: 433–459. 
  4. ^ Shaw P.J.A. (2003) Multivariate statistics for the Environmental Sciences, Hodder-Arnold. ISBN 978-0-340-80763-7.[页码请求]
  5. ^ Jolliffe I.T. Principal Component Analysis (页面存档备份,存于互联网档案馆), Series: Springer Series in Statistics (页面存档备份,存于互联网档案馆), 2nd ed., Springer, NY, 2002, XXIX, 487 p. 28 illus. ISBN 978-0-387-95442-4
  6. ^ A. A. Miranda, Y. A. Le Borgne, and G. Bontempi. New Routes from Minimal Approximation Error to Principal Components (页面存档备份,存于互联网档案馆), Volume 27, Number 3 / June, 2008, Neural Processing Letters, Springer
  7. ^ Fukunaga, Keinosuke. Introduction to Statistical Pattern Recognition. Elsevier. 1990. ISBN 0122698517. 
  8. ^ Jonathon Shlens, A Tutorial on Principal Component Analysis. (页面存档备份,存于互联网档案馆
  9. ^ Geiger, Bernhard; Kubin, Gernot (Sep 2012), Relative Information Loss in the PCA (页面存档备份,存于互联网档案馆
  10. ^ A.A. Miranda, Y.-A. Le Borgne, and G. Bontempi. New Routes from Minimal Approximation Error to Principal Components (页面存档备份,存于互联网档案馆), Volume 27, Number 3 / June, 2008, Neural Processing Letters, Springer
  11. ^ Bessel's correction (页面存档备份,存于互联网档案馆) Bessel's correction
  12. ^ eig function (页面存档备份,存于互联网档案馆) Matlab documentation
  13. ^ MATLAB PCA-based Face recognition software. [2012-04-30]. (原始内容于2012-03-09). 
  14. ^ Eigenvalues function (页面存档备份,存于互联网档案馆) Mathematica documentation


参考

  • Jolliffe, I. T. Principal Component Analysis. Springer-Verlag. 1986: 487 [2012-01-24]. ISBN 978-0-387-95442-4. doi:10.1007/b98835. (原始内容于2019-10-16). 

主成分分析, 在多元统计分析中, 英語, principal, components, analysis, 是一種统计分析, 簡化數據集的方法, 它利用正交变换来对一系列可能相关的变量的观测值进行线性变换, 从而投影为一系列线性不相关变量的值, 这些不相关变量称为主成分, principal, components, 具体地, 主成分可以看做一个线性方程, 其包含一系列线性系数来指示投影方向, pca对原始数据的正则化或预处理敏感, 相对缩放, 一個高斯分布, 平均值為, 標準差在, 方向上為3, 在其正交方向上為. 在多元统计分析中 主成分分析 英語 Principal components analysis PCA 是一種统计分析 簡化數據集的方法 它利用正交变换来对一系列可能相关的变量的观测值进行线性变换 从而投影为一系列线性不相关变量的值 这些不相关变量称为主成分 Principal Components 具体地 主成分可以看做一个线性方程 其包含一系列线性系数来指示投影方向 PCA对原始数据的正则化或预处理敏感 相对缩放 一個高斯分布 平均值為 1 3 標準差在 0 878 0 478 方向上為3 在其正交方向上為1的主成分分析 黑色的兩個向量是此分布的共變異數矩陣的特征向量 其長度為對應的特征值之平方根 並以分布的平均值為原點 基本思想 将坐标轴中心移到数据的中心 然后旋转坐标轴 使得数据在C1轴上的方差最大 即全部n个数据个体在该方向上的投影最为分散 意味着更多的信息被保留下来 C1成为第一主成分 C2第二主成分 找一个C2 使得C2与C1的协方差 相关系数 为0 以免与C1信息重叠 并且使数据在该方向的方差尽量最大 以此类推 找到第三主成分 第四主成分 第p个主成分 p个随机变量可以有p个主成分 1 主成分分析经常用于减少数据集的维数 同时保留数据集當中对方差贡献最大的特征 这是通过保留低維主成分 忽略高維主成分做到的 这样低維成分往往能够保留住数据的最重要部分 但是 这也不是一定的 要视具体应用而定 由于主成分分析依赖所给数据 所以数据的准确性对分析结果影响很大 主成分分析由卡尔 皮尔逊於1901年發明 2 用於分析數據及建立數理模型 在原理上与主轴定理 英语 Principal axis theorem 相似 之后在1930年左右由哈罗德 霍特林独立发展并命名 依据应用领域的不同 在信号处理中它也叫做离散K L 转换 discrete Karhunen Loeve transform KLT 其方法主要是通過對共變異數矩陣進行特征分解 3 以得出數據的主成分 即特征向量 與它們的權值 即特征值 4 PCA是最簡單的以特征量分析多元統計分布的方法 其結果可以理解為對原數據中的方差做出解釋 哪一個方向上的數據值對方差的影響最大 換而言之 PCA提供了一種降低數據維度的有效辦法 如果分析者在原數據中除掉最小的特征值所對應的成分 那麼所得的低維度數據必定是最優化的 也即 這樣降低維度必定是失去訊息最少的方法 主成分分析在分析複雜數據時尤為有用 比如人臉識別 PCA是最简单的以特征量分析多元统计分布的方法 通常 这种运算可以被看作是揭露数据的内部结构 從而更好地展現数据的變異度 如果一个多元数据集是用高维数据空间之坐标系來表示的 那么PCA能提供一幅较低维度的图像 相當於数据集在讯息量最多之角度上的一個投影 这样就可以利用少量的主成分讓数据的维度降低了 PCA 跟因子分析密切相关 因子分析通常包含更多特定領域底層結構的假設 並且求解稍微不同矩陣的特徵向量 PCA 也跟典型相關分析 CCA 有關 CCA定義的坐標系可以最佳地描述兩個數據集之間的互協方差 而PCA定義了新的正交坐標系 能最佳地描述單個數據集當中的變異數 目录 1 数学定义 2 讨论 3 符号和缩写表 4 主成分分析的属性和限制 5 主成分分析和信息理论 6 使用统计方法计算PCA 7 组织数据集 8 计算经验均值 9 计算平均偏差 10 求协方差矩阵 10 1 查找协方差矩阵的特征值和特征向量 11 参见 12 注释 13 参考数学定义 编辑PCA的数学定义是 一个正交化线性变换 把数据变换到一个新的坐标系统中 使得这一数据的任何投影的第一大方差在第一个坐标 称为第一主成分 上 第二大方差在第二个坐标 第二主成分 上 依次类推 5 定义一个n m displaystyle n times m 的矩阵 X T displaystyle X T 为去平均值 以平均值为中心移动至原点 的数据 其行为数据样本 列为数据类别 注意 这里定义的是X T displaystyle X T 而不是X displaystyle X 则X displaystyle X 的奇异值分解为X W S V T displaystyle X W Sigma V T 其中W R m m displaystyle W in mathbf R m times m 是X X T displaystyle XX T 的特征向量矩阵 S R m n displaystyle Sigma in mathbf R m times n 是奇异值矩阵 V R n n displaystyle V in mathbf R n times n 是X T X displaystyle X T X 的特征向量矩阵 据此 Y X W V S W W V S displaystyle begin aligned boldsymbol Y top amp boldsymbol X top boldsymbol W amp boldsymbol V boldsymbol Sigma top boldsymbol W top boldsymbol W amp boldsymbol V boldsymbol Sigma top end aligned 当 m lt n 1时 V 在通常情况下不是唯一定义的 而Y 则是唯一定义的 W 是一个正交矩阵 YTWT XT 且YT的第一列由第一主成分组成 第二列由第二主成分组成 依此类推 为了得到一种降低数据维度的有效办法 我们可以利用WL把 X 映射到一个只应用前面L个向量的低维空间中去 Y W L X S L V displaystyle mathbf Y mathbf W L top mathbf X mathbf Sigma L mathbf V top 其中S L I L m S displaystyle mathbf Sigma L mathbf I L times m mathbf Sigma 且I L m displaystyle mathbf I L times m 為L m displaystyle L times m 的單位矩陣 X 的单向量矩阵W相当于协方差矩阵的特征向量 C X XT X X W S S W displaystyle mathbf X mathbf X top mathbf W mathbf Sigma mathbf Sigma top mathbf W top 在欧几里得空间给定一组点数 第一主成分对应于通过多维空间平均点的一条线 同时保证各个点到这条直线距离的平方和最小 去除掉第一主成分后 用同样的方法得到第二主成分 依此类推 在S中的奇异值均为矩阵 XXT的特征值的平方根 每一个特征值都与跟它们相关的方差是成正比的 而且所有特征值的总和等于所有点到它们的多维空间平均点距离的平方和 PCA提供了一种降低维度的有效办法 本质上 它利用正交变换将围绕平均点的点集中尽可能多的变量投影到第一维中去 因此 降低维度必定是失去讯息最少的方法 PCA具有保持子空间拥有最大方差的最优正交变换的特性 然而 当与离散余弦变换相比时 它需要更大的计算需求代价 非线性降维技术相对于PCA来说则需要更高的计算要求 PCA对变量的缩放很敏感 如果我们只有两个变量 而且它们具有相同的样本方差 并且成正相关 那么PCA将涉及两个变量的主成分的旋转 但是 如果把第一个变量的所有值都乘以100 那么第一主成分就几乎和这个变量一样 另一个变量只提供了很小的贡献 第二主成分也将和第二个原始变量几乎一致 这就意味着当不同的变量代表不同的单位 如温度和质量 时 PCA是一种比较武断的分析方法 但是在Pearson的题为 On Lines and Planes of Closest Fit to Systems of Points in Space 的原始文件里 是假设在欧几里得空间里不考虑这些 一种使PCA不那么武断的方法是使用变量缩放以得到单位方差 讨论 编辑通常 为了确保第一主成分描述的是最大方差的方向 我们会使用平均减法进行主成分分析 如果不执行平均减法 第一主成分有可能或多或少的对应于数据的平均值 另外 为了找到近似数据的最小均方误差 我们必须选取一个零均值 6 假设零经验均值 数据集 X 的主成分w1可以被定义为 w 1 arg m a x w 1 Var w X arg m a x w 1 E w X 2 displaystyle mathbf w 1 underset Vert mathbf w Vert 1 operatorname arg max operatorname Var mathbf w top mathbf X underset Vert mathbf w Vert 1 operatorname arg max E left left mathbf w top mathbf X right 2 right 为了得到第 k个主成分 必须先从X中减去前面的 k 1 displaystyle k 1 个主成分 X k 1 X i 1 k 1 w i w i X displaystyle mathbf hat X k 1 mathbf X sum i 1 k 1 mathbf w i mathbf w i top mathbf X 然后把求得的第k个主成分带入数据集 得到新的数据集 继续寻找主成分 w k a r g m a x w 1 E w X k 1 2 displaystyle mathbf w k underset Vert mathbf w Vert 1 operatorname arg max E left left mathbf w top mathbf hat X k 1 right 2 right PCA相当于在气象学中使用的经验正交函数 EOF 同时也类似于一个线性隐层神经网络 隐含层 K 个神经元的权重向量收敛后 将形成一个由前 K 个主成分跨越空间的基础 但是与PCA不同的是 这种技术并不一定会产生正交向量 PCA是一种很流行且主要的的模式识别技术 然而 它并不能最优化类别可分离性 7 另一种不考虑这一点的方法是线性判别分析 符号和缩写表 编辑Symbol符号 Meaning意义 Dimensions尺寸 Indices指数X X m n displaystyle mathbf X X m n 由所有数据向量集组成的数据矩阵 一列代表一个向量 M N displaystyle M times N m 1 M displaystyle m 1 ldots M n 1 N displaystyle n 1 ldots N N displaystyle N 数据集中列向量的个数 1 1 displaystyle 1 times 1 标量M displaystyle M 每个列向量的元素个数 1 1 displaystyle 1 times 1 标量L displaystyle L 子空间的维数 1 L M displaystyle 1 leq L leq M 1 1 displaystyle 1 times 1 标量u u m displaystyle mathbf u u m 经验均值向量 M 1 displaystyle M times 1 m 1 M displaystyle m 1 ldots M s s m displaystyle mathbf s s m 经验标准方差向量 M 1 displaystyle M times 1 m 1 M displaystyle m 1 ldots M h h n displaystyle mathbf h h n 所有的单位向量 1 N displaystyle 1 times N n 1 N displaystyle n 1 ldots N B B m n displaystyle mathbf B B m n 对均值的偏离向量 M N displaystyle M times N m 1 M displaystyle m 1 ldots M n 1 N displaystyle n 1 ldots N Z Z m n displaystyle mathbf Z Z m n Z 分数 利用均值和标准差计算得到 M N displaystyle M times N m 1 M displaystyle m 1 ldots M n 1 N displaystyle n 1 ldots N C C p q displaystyle mathbf C C p q 协方差矩阵 M M displaystyle M times M p 1 M displaystyle p 1 ldots M q 1 M displaystyle q 1 ldots M R R p q displaystyle mathbf R R p q 相关矩阵 M M displaystyle M times M p 1 M displaystyle p 1 ldots M q 1 M displaystyle q 1 ldots M V V p q displaystyle mathbf V V p q C的所有特征向量集 M M displaystyle M times M p 1 M displaystyle p 1 ldots M q 1 M displaystyle q 1 ldots M D D p q displaystyle mathbf D D p q 主对角线为特征值的对角矩阵 M M displaystyle M times M p 1 M displaystyle p 1 ldots M q 1 M displaystyle q 1 ldots M W W p q displaystyle mathbf W W p q 基向量矩阵 M L displaystyle M times L p 1 M displaystyle p 1 ldots M q 1 L displaystyle q 1 ldots L Y Y m n displaystyle mathbf Y Y m n X 和W矩阵的投影矩阵 L N displaystyle L times N m 1 L displaystyle m 1 ldots L n 1 N displaystyle n 1 ldots N 主成分分析的属性和限制 编辑如上所述 主成分分析的结果依赖于变量的缩放 主成分分析的适用性受到由它的派生物产生的某些假设 8 的限制 主成分分析和信息理论 编辑通过使用降维来保存大部分数据信息的主成分分析的观点是不正确的 确实如此 当没有任何假设信息的信号模型时 主成分分析在降维的同时并不能保证信息的不丢失 其中信息是由香农熵 9 来衡量的 基于假设得 x s n displaystyle mathbf x mathbf s mathbf n 也就是说 向量 x 是含有信息的目标信号 s 和噪声信号 n 之和 从信息论角度考虑主成分分析在降维上是最优的 特别地 Linsker证明了如果 s 是高斯分布 且 n 是 与密度矩阵相应的协方差矩阵的高斯噪声 使用统计方法计算PCA 编辑以下是使用统计方法计算PCA的详细说明 但是请注意 如果利用奇异值分解 使用标准的软件 效果会更好 我们的目标是把一个给定的具有 M 维的数据集X 变换成具有较小维度 L的数据集Y 现在要求的就是矩阵Y Y是矩阵X Karhunen Loeve变换 Y K L T X displaystyle mathbf Y mathbb KLT mathbf X 组织数据集 编辑假设有一组 M 个变量的观察数据 我们的目的是减少数据 使得能够用L 个向量来描述每个观察值 L lt M 进一步假设 该数据被整理成一组具有N个向量的数据集 其中每个向量都代表M 个变量的单一观察数据 x 1 x N displaystyle mathbf x 1 ldots mathbf x N 为列向量 其中每个列向量有M 行 将列向量放入M N的单矩阵X 裡 计算经验均值 编辑对每一维m 1 M计算经验均值将计算得到的均值放入一个 M 1维的经验均值向量u中u m 1 N n 1 N X m n displaystyle u m 1 over N sum n 1 N X m n dd 计算平均偏差 编辑对于在最大限度地减少近似数据的均方误差的基础上找到一个主成分来说 均值减去法是该解决方案的不可或缺的组成部分 10 因此 我们继续如下步骤 从数据矩阵X的每一列中减去经验均值向量 u将平均减去过的数据存储在M N矩阵B中B X u h displaystyle mathbf B mathbf X mathbf u mathbf h 其中h是一个长度为N的全为1的行向量 dd h n 1 for n 1 N displaystyle h n 1 qquad qquad text for n 1 ldots N dd dd 求协方差矩阵 编辑从矩阵B 中找到M M 的经验协方差矩阵CC E B B E B B 1 N 1 B B displaystyle mathbf C mathbb E left mathbf B otimes mathbf B right mathbb E left mathbf B cdot mathbf B right 1 over N 1 sum mathbf B cdot mathbf B dd 其中 E displaystyle mathbb E 为期望值 displaystyle otimes 是最外层运算符 displaystyle 是共轭转置运算符 请注意 如果B完全由实数组成 那么共轭转置与正常的转置一样 为什么是N 1 而不是N Bessel s correction 11 给出了解释查找协方差矩阵的特征值和特征向量 编辑 计算矩阵C 的特征向量V 1 C V D displaystyle mathbf V 1 mathbf C mathbf V mathbf D dd 其中 D 是C的特征值对角矩阵 这一步通常会涉及到使用基于计算机的计算特征值和特征向量的算法 在很多矩阵代数系统中这些算法都是现成可用的 如R语言 MATLAB 12 13 Mathematica 14 SciPy IDL 交互式数据语言 或者GNU Octave以及OpenCV 矩阵D为M M的对角矩阵各个特征值和特征向量都是配对的 m个特征值对应m个特征向量 参见 编辑Correspondence analysis 英语 Correspondence analysis Canonical correlation CUR matrix approximation 英语 CUR matrix approximation can replace of low rank SVD approximation Detrended correspondence analysis 英语 Detrended correspondence analysis Dynamic mode decomposition 英语 Dynamic mode decomposition 特征脸 Eigenface 多線性主成分分析 Multilinear PCA Geometric data analysis 英语 Geometric data analysis Factorial code 英语 Factorial code 独立成分分析 核主成分分析 矩阵分解 Nonlinear dimensionality reduction Oja s rule 英语 Oja s rule Point distribution model 英语 Point distribution model PCA applied to morphometry and computer vision Principal component regression 英语 Principal component regression Singular spectrum analysis 英语 Singular spectrum analysis 奇异值分解 Sparse PCA 英语 Sparse PCA 变换编码 最小二乘法 Low rank approximation 英语 Low rank approximation 圖模式 马尔可夫链 马尔可夫逻辑网络注释 编辑 主成分分析 principal components analysis PCA 无监督学习 原始内容存档于2020 08 19 Pearson K On Lines and Planes of Closest Fit to Systems of Points in Space PDF Philosophical Magazine 1901 2 6 559 572 2012 01 24 原始内容 PDF 存档于2013 10 20 Abdi H amp Williams L J Principal component analysis Wiley Interdisciplinary Reviews Computational Statistics 2010 2 433 459 Shaw P J A 2003 Multivariate statistics for the Environmental Sciences Hodder Arnold ISBN 978 0 340 80763 7 页码请求 Jolliffe I T Principal Component Analysis 页面存档备份 存于互联网档案馆 Series Springer Series in Statistics 页面存档备份 存于互联网档案馆 2nd ed Springer NY 2002 XXIX 487 p 28 illus ISBN 978 0 387 95442 4 A A Miranda Y A Le Borgne and G Bontempi New Routes from Minimal Approximation Error to Principal Components 页面存档备份 存于互联网档案馆 Volume 27 Number 3 June 2008 Neural Processing Letters Springer Fukunaga Keinosuke Introduction to Statistical Pattern Recognition Elsevier 1990 ISBN 0122698517 Jonathon Shlens A Tutorial on Principal Component Analysis 页面存档备份 存于互联网档案馆 Geiger Bernhard Kubin Gernot Sep 2012 Relative Information Loss in the PCA 页面存档备份 存于互联网档案馆 A A Miranda Y A Le Borgne and G Bontempi New Routes from Minimal Approximation Error to Principal Components 页面存档备份 存于互联网档案馆 Volume 27 Number 3 June 2008 Neural Processing Letters Springer Bessel s correction 页面存档备份 存于互联网档案馆 Bessel s correction eig function 页面存档备份 存于互联网档案馆 Matlab documentation MATLAB PCA based Face recognition software 2012 04 30 原始内容存档于2012 03 09 Eigenvalues function 页面存档备份 存于互联网档案馆 Mathematica documentation参考 编辑维基共享资源中相关的多媒体资源 主成分分析Jolliffe I T Principal Component Analysis Springer Verlag 1986 487 2012 01 24 ISBN 978 0 387 95442 4 doi 10 1007 b98835 原始内容存档于2019 10 16 取自 https zh wikipedia org w index php title 主成分分析 amp oldid 74553080, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。