fbpx
维基百科

典型相关

统计学中,典型相关分析(英語:Canonical Correlation Analysis)是对互协方差矩阵的一种理解。如果我们有两个随机变量向量 X = (X1, ..., Xn) 和 Y = (Y1, ..., Ym) 并且它们是相關的,那么典型相关分析会找出 XiYj 的相互相关最大的线性组合。[1]T·R·Knapp指出“几乎所有常见的参数测试的意义可视为特殊情况的典型相关分析,这是研究两组变量之间关系的一般步骤。”[2] 这个方法在1936年由哈罗德·霍特林首次引入。[3]

给定两个随机向量,我们可以定义互协方差矩阵 矩阵,其中 协方差 。实际上,我们可以基于 的采样数据来估计协方差矩阵。(如从一对数据矩阵)。

典型相关分析求出向量 使得随机变量 相關 最大。随机变量 第一对典型变量。然后寻求一个依然最大化相关但与第一对典型变量不相关的向量;这样就得到了 第二对典型变量。 这个步骤会进行 次。

计算 编辑

推导 编辑

  。需要最大化的参数为

 

第一步是定义一个基变更以及

 
 

因此我们有

 

根据柯西-施瓦茨不等式,我们有

 
 

如果向量    共线,那么上式相等。此外,如果   是矩阵   (见Rayleigh quotient) 最大特征值对应的特征向量,那么就可以得到相关的最大值。随后的典型变量对可以通过减少特征值的量级来得到。正交性保证了相关矩阵的对称性。

解法 编辑

因此解法是:

  •    的一个特征向量。
  •    的比例项。

相反地,也有:

  •    的一个特征向量。
  •    的比例项。

把坐标反过来,我们有

  •    的一个特征向量。
  •    的一个特征向量。
  •    的比例项。
  •    的比例项。

那么相关变量定义为:

 
 

实现 编辑

典型相关分析可以用一个相关矩阵的奇异值分解来解决。[4] 以下是它在一些语言中的函数 [5]

假设检验 编辑

每一行可以用下面的方法检测其重要性。由于相关是排好序的,也就是说行   为 0 意味着所有后续的相关都为 0。如果我们在一个样本中有   个独立观测,对    是其估计相关。对第   行,测试统计为:

 

上面渐近为一个对大   自由度卡方分布[6] 由于所有从    的相关从逻辑上来说都是 0,所以在这一点之后的乘积都是不相关的。

实际运用 编辑

例子 编辑

与principal angles的连接 编辑

参见 编辑

  • Generalized Canonical Correlation
  • Multilinear subspace learning
  • RV coefficient
  • Principal angles
  • 主成分分析
  • Regularized canonical correlation analysis
  • 奇异值分解
  • Partial least squares regression

参考文献 编辑

  1. ^ Härdle, Wolfgang; Simar, Léopold. Canonical Correlation Analysis. Applied Multivariate Statistical Analysis. 2007: 321–330. ISBN 978-3-540-72243-4. doi:10.1007/978-3-540-72244-1_14. 
  2. ^ Knapp, T. R. Canonical correlation analysis: A general parametric significance-testing system. Psychological Bulletin. 1978, 85 (2): 410–416. doi:10.1037/0033-2909.85.2.410. 
  3. ^ Hotelling, H. Relations Between Two Sets of Variates. Biometrika. 1936, 28 (3–4): 321–377. JSTOR 2333955. doi:10.1093/biomet/28.3-4.321. 
  4. ^ Hsu, D.; Kakade, S. M.; Zhang, T. A spectral algorithm for learning Hidden Markov Models (PDF). Journal of Computer and System Sciences. 2012, 78 (5): 1460 [2015-09-10]. arXiv:0811.4413 . doi:10.1016/j.jcss.2011.12.025. (原始内容 (PDF)于2020-10-01). 
  5. ^ Huang, S. Y.; Lee, M. H.; Hsiao, C. K. Nonlinear measures of association with kernel canonical correlation analysis and applications (PDF). Journal of Statistical Planning and Inference. 2009, 139 (7): 2162 [2015-09-10]. doi:10.1016/j.jspi.2008.10.011. (原始内容 (PDF)于2017-03-13). 
  6. ^ Kanti V. Mardia, J. T. Kent and J. M. Bibby. Multivariate Analysis. Academic Press. 1979. 

外部链接 编辑

  • Hardoon, D. R.; Szedmak, S.; Shawe-Taylor, J. Canonical Correlation Analysis: An Overview with Application to Learning Methods. Neural Computation. 2004, 16 (12): 2639–2664. PMID 15516276. doi:10.1162/0899766042321814. 
  • A note on the ordinal canonical-correlation analysis of two sets of ranking scores (页面存档备份,存于互联网档案馆) (Also provides a FORTRAN program)- in J. of Quantitative Economics 7(2), 2009, pp. 173-199
  • Representation-Constrained Canonical Correlation Analysis: A Hybridization of Canonical Correlation and Principal Component Analyses (Also provides a FORTRAN program)- in J. of Applied Economic Sciences 4(1), 2009, pp. 115-124

典型相关, 在统计学中, 分析, 英語, canonical, correlation, analysis, 是对互协方差矩阵的一种理解, 如果我们有两个随机变量向量, 并且它们是相關的, 那么分析会找出, 的相互相关最大的线性组合, knapp指出, 几乎所有常见的参数测试的意义可视为特殊情况的分析, 这是研究两组变量之间关系的一般步骤, 这个方法在1936年由哈罗德, 霍特林首次引入, 给定两个随机向量x, displaystyle, dots, 和y, displaystyle, dots, 我们可以定义互协. 在统计学中 典型相关分析 英語 Canonical Correlation Analysis 是对互协方差矩阵的一种理解 如果我们有两个随机变量向量 X X1 Xn 和 Y Y1 Ym 并且它们是相關的 那么典型相关分析会找出 Xi 和 Yj 的相互相关最大的线性组合 1 T R Knapp指出 几乎所有常见的参数测试的意义可视为特殊情况的典型相关分析 这是研究两组变量之间关系的一般步骤 2 这个方法在1936年由哈罗德 霍特林首次引入 3 给定两个随机向量X x 1 x n displaystyle X x 1 dots x n 和Y y 1 y m displaystyle Y y 1 dots y m 我们可以定义互协方差矩阵 S X Y cov X Y displaystyle Sigma XY operatorname cov X Y 为 n m displaystyle n times m 的矩阵 其中 i j displaystyle i j 是协方差 cov x i y j displaystyle operatorname cov x i y j 实际上 我们可以基于 X displaystyle X 和 Y displaystyle Y 的采样数据来估计协方差矩阵 如从一对数据矩阵 典型相关分析求出向量 a displaystyle a 和 b displaystyle b 使得随机变量 a X displaystyle a X 和 b Y displaystyle b Y 的相關性 r corr a X b Y displaystyle rho operatorname corr a X b Y 最大 随机变量 U a X displaystyle U a X 和 V b Y displaystyle V b Y 是 第一对典型变量 然后寻求一个依然最大化相关但与第一对典型变量不相关的向量 这样就得到了 第二对典型变量 这个步骤会进行 min m n displaystyle min m n 次 目录 1 计算 1 1 推导 1 2 解法 1 3 实现 2 假设检验 3 实际运用 4 例子 5 与principal angles的连接 6 参见 7 参考文献 8 外部链接计算 编辑推导 编辑 设 S X X cov X X displaystyle Sigma XX operatorname cov X X nbsp 和 S Y Y cov Y Y displaystyle Sigma YY operatorname cov Y Y nbsp 需要最大化的参数为 r a S X Y b a S X X a b S Y Y b displaystyle rho frac a Sigma XY b sqrt a Sigma XX a sqrt b Sigma YY b nbsp 第一步是定义一个基变更以及 c S X X 1 2 a displaystyle c Sigma XX 1 2 a nbsp d S Y Y 1 2 b displaystyle d Sigma YY 1 2 b nbsp 因此我们有 r c S X X 1 2 S X Y S Y Y 1 2 d c c d d displaystyle rho frac c Sigma XX 1 2 Sigma XY Sigma YY 1 2 d sqrt c c sqrt d d nbsp 根据柯西 施瓦茨不等式 我们有 c S X X 1 2 S X Y S Y Y 1 2 d c S X X 1 2 S X Y S Y Y 1 2 S Y Y 1 2 S Y X S X X 1 2 c 1 2 d d 1 2 displaystyle left c Sigma XX 1 2 Sigma XY Sigma YY 1 2 right d leq left c Sigma XX 1 2 Sigma XY Sigma YY 1 2 Sigma YY 1 2 Sigma YX Sigma XX 1 2 c right 1 2 left d d right 1 2 nbsp r c S X X 1 2 S X Y S Y Y 1 S Y X S X X 1 2 c 1 2 c c 1 2 displaystyle rho leq frac left c Sigma XX 1 2 Sigma XY Sigma YY 1 Sigma YX Sigma XX 1 2 c right 1 2 left c c right 1 2 nbsp 如果向量 d displaystyle d nbsp 和 S Y Y 1 2 S Y X S X X 1 2 c displaystyle Sigma YY 1 2 Sigma YX Sigma XX 1 2 c nbsp 共线 那么上式相等 此外 如果 c displaystyle c nbsp 是矩阵 S X X 1 2 S X Y S Y Y 1 S Y X S X X 1 2 displaystyle Sigma XX 1 2 Sigma XY Sigma YY 1 Sigma YX Sigma XX 1 2 nbsp 见Rayleigh quotient 最大特征值对应的特征向量 那么就可以得到相关的最大值 随后的典型变量对可以通过减少特征值的量级来得到 正交性保证了相关矩阵的对称性 解法 编辑 因此解法是 c displaystyle c nbsp 是 S X X 1 2 S X Y S Y Y 1 S Y X S X X 1 2 displaystyle Sigma XX 1 2 Sigma XY Sigma YY 1 Sigma YX Sigma XX 1 2 nbsp 的一个特征向量 d displaystyle d nbsp 是 S Y Y 1 2 S Y X S X X 1 2 c displaystyle Sigma YY 1 2 Sigma YX Sigma XX 1 2 c nbsp 的比例项 相反地 也有 d displaystyle d nbsp 是 S Y Y 1 2 S Y X S X X 1 S X Y S Y Y 1 2 displaystyle Sigma YY 1 2 Sigma YX Sigma XX 1 Sigma XY Sigma YY 1 2 nbsp 的一个特征向量 c displaystyle c nbsp 是 S X X 1 2 S X Y S Y Y 1 2 d displaystyle Sigma XX 1 2 Sigma XY Sigma YY 1 2 d nbsp 的比例项 把坐标反过来 我们有 a displaystyle a nbsp 是 S X X 1 S X Y S Y Y 1 S Y X displaystyle Sigma XX 1 Sigma XY Sigma YY 1 Sigma YX nbsp 的一个特征向量 b displaystyle b nbsp 是 S Y Y 1 S Y X S X X 1 S X Y displaystyle Sigma YY 1 Sigma YX Sigma XX 1 Sigma XY nbsp 的一个特征向量 a displaystyle a nbsp 是 S X X 1 S X Y b displaystyle Sigma XX 1 Sigma XY b nbsp 的比例项 b displaystyle b nbsp 是 S Y Y 1 S Y X a displaystyle Sigma YY 1 Sigma YX a nbsp 的比例项 那么相关变量定义为 U c S X X 1 2 X a X displaystyle U c Sigma XX 1 2 X a X nbsp V d S Y Y 1 2 Y b Y displaystyle V d Sigma YY 1 2 Y b Y nbsp 实现 编辑 典型相关分析可以用一个相关矩阵的奇异值分解来解决 4 以下是它在一些语言中的函数 5 MATLAB as canoncorr 页面存档备份 存于互联网档案馆 R as cancor 页面存档备份 存于互联网档案馆 or in FactoMineR 页面存档备份 存于互联网档案馆 SAS as The CANCORR Procedure 页面存档备份 存于互联网档案馆 Scikit Learn Python as Cross decomposition 页面存档备份 存于互联网档案馆 假设检验 编辑每一行可以用下面的方法检测其重要性 由于相关是排好序的 也就是说行 i displaystyle i nbsp 为 0 意味着所有后续的相关都为 0 如果我们在一个样本中有 p displaystyle p nbsp 个独立观测 对 i 1 min m n displaystyle i 1 dots min m n nbsp r i displaystyle widehat rho i nbsp 是其估计相关 对第 i displaystyle i nbsp 行 测试统计为 x 2 p 1 1 2 m n 1 ln j i min m n 1 r j 2 displaystyle chi 2 left p 1 frac 1 2 m n 1 right ln prod j i min m n 1 widehat rho j 2 nbsp 上面渐近为一个对大 p displaystyle p nbsp 有 m i 1 n i 1 displaystyle m i 1 n i 1 nbsp 个自由度的卡方分布 6 由于所有从 min m n displaystyle min m n nbsp 到 p displaystyle p nbsp 的相关从逻辑上来说都是 0 所以在这一点之后的乘积都是不相关的 实际运用 编辑例子 编辑与principal angles的连接 编辑参见 编辑Generalized Canonical Correlation Multilinear subspace learning RV coefficient Principal angles 主成分分析 Regularized canonical correlation analysis 奇异值分解 Partial least squares regression参考文献 编辑 Hardle Wolfgang Simar Leopold Canonical Correlation Analysis Applied Multivariate Statistical Analysis 2007 321 330 ISBN 978 3 540 72243 4 doi 10 1007 978 3 540 72244 1 14 Knapp T R Canonical correlation analysis A general parametric significance testing system Psychological Bulletin 1978 85 2 410 416 doi 10 1037 0033 2909 85 2 410 Hotelling H Relations Between Two Sets of Variates Biometrika 1936 28 3 4 321 377 JSTOR 2333955 doi 10 1093 biomet 28 3 4 321 Hsu D Kakade S M Zhang T A spectral algorithm for learning Hidden Markov Models PDF Journal of Computer and System Sciences 2012 78 5 1460 2015 09 10 arXiv 0811 4413 nbsp doi 10 1016 j jcss 2011 12 025 原始内容存档 PDF 于2020 10 01 Huang S Y Lee M H Hsiao C K Nonlinear measures of association with kernel canonical correlation analysis and applications PDF Journal of Statistical Planning and Inference 2009 139 7 2162 2015 09 10 doi 10 1016 j jspi 2008 10 011 原始内容存档 PDF 于2017 03 13 Kanti V Mardia J T Kent and J M Bibby Multivariate Analysis Academic Press 1979 外部链接 编辑Hardoon D R Szedmak S Shawe Taylor J Canonical Correlation Analysis An Overview with Application to Learning Methods Neural Computation 2004 16 12 2639 2664 PMID 15516276 doi 10 1162 0899766042321814 A note on the ordinal canonical correlation analysis of two sets of ranking scores 页面存档备份 存于互联网档案馆 Also provides a FORTRAN program in J of Quantitative Economics 7 2 2009 pp 173 199 Representation Constrained Canonical Correlation Analysis A Hybridization of Canonical Correlation and Principal Component Analyses Also provides a FORTRAN program in J of Applied Economic Sciences 4 1 2009 pp 115 124 取自 https zh wikipedia org w index php title 典型相关 amp oldid 77501818, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。