fbpx
维基百科

皮尔逊积矩相关系数

统计学中,皮尔逊积矩相关系数(英語:Pearson product-moment correlation coefficient,缩写:PPMCC,或PCCs[1][註 1],有时简称相关系数)用于度量兩組數據的变量X和Y之间的線性相關的程度。它是兩個變量的協方差與其標準差的乘積之比; 因此,它本質上是協方差的歸一化度量,因此結果始終具有介於-1和1之間的值。與協方差本身一樣,該度量只能反映變量的線性相關性,而忽略了許多其他類型的關係或相關性。舉個簡單的例子,可以預期高中青少年樣本的年齡和身高的皮尔逊积矩相关系数顯著大於0,但小於1(因為1表示不切實際的完美相關性)。

具有不同相關係數值 (ρ)的散點圖示例
几组(x, y)的点集,以及各个点集中x和y之间的相关系数。我们可以发现相关系数反映的是变量之间的线性关系和相关性的方向(第一排),而不是相关性的斜率(中间),也不是各种非线性关系(第三排)。请注意:中间的图中斜率为0,但相关系数是没有意义的,因为此时变量Y是0

命名和歷史

它是由卡尔·皮尔逊弗朗西斯·高尔顿在1880年代提出的一个相似却又稍有不同的想法演变而来,[2][3]并且其数学公式由奥古斯特·布拉菲(Auguste Bravais)于1844年推导出和发表[註 2][7][8][9][10]。系数的命名因此是Stigler名字由來法則的一个例子。

这个相关系数也称作“皮尔森相关系数r”。

定义

两个变量之间的皮尔逊相关系数定义为两个变量的协方差除以它们标准差的乘积:

 

上式定义了总体相关系数,常用希腊小寫字母 ρ (rho) 作為代表符號。估算样本的协方差和标准差,可得到样本相关系数(样本皮尔逊系数),常用英文小寫字母 r 表示:

 

r 亦可由 样本点的標準分數均值估算,得到與上式等價的表達式:

 

其中     分别是   样本的標準分數、样本平均值和样本标准差。

数学特性

总体和样本皮尔逊系数的绝对值小于或等于1。如果样本数据点精确的落在直线上[註 3],或者双变量分布完全在直线上(计算总体皮尔逊系数的情况),则相关系数等于1或-1。皮尔逊系数是对称的:corr(X,Y) = corr(Y,X)。

皮尔逊相关系数有一个重要的数学特性是,因两个变量的位置和尺度的变化并不会引起该系数的改变,即它该变化的不变量 (由符号确定)。也就是说,我们如果把X移动到a + bX和把Y移动到c + dY,其中a、b、c和d是常数,并不会改变两个变量的相关系数[註 4]。我们发现更一般的线性变换则会改变相关系数:参见之后章节对该特性应用的介绍。

由于μX = E(X), σX2 = E[(X − E(X))2] = E(X2) − E2(X),Y也类似, 并且

 

故相关系数也可以表示成

 

对于样本皮尔逊相关系数:

 

以上方程给出了计算样本皮尔逊相关系数简单的单流程算法,但是其依赖于涉及到的数据,有时它可能是数值不稳定的。

解释

皮尔逊相关系数的变化范围为-1到1。系数的值为1意味着XY可以很好的由直线方程来描述,所有的数据点都很好的落在一条直线上,且 Y 随着 X 的增加而增加。系数的值为−1意味着所有的数据点都落在直线上,且 Y 随着 X 的增加而减少。系数的值为0意味着两个变量之间没有线性关系。

更一般的, 我们发现,当且仅当 XiYi 均落在他们各自的均值的同一侧, 则(Xi − X)(Yi − Y) 的值为正。 也就是说,如果XiYi 同时趋向于大于, 或同时趋向于小于他们各自的均值,则相关系数为正。 如果 XiYi 趋向于落在他们均值的相反一侧,则相关系数为负。

几何学角度的解释

 
回归直线:y=gx(x) [红色] 和 x=gy(y) [蓝色]

对于没有进行中心化的数据, 相关系数与两条可能的回归线y=gx(x) 和 x=gy(y) 夹角的余弦值一致。

对于中心化过的数据(也就是说, 数据移动一个样本平均值以使其均值为0),相关系数也可以被视作由两个随机变量向量夹角 余弦值(见下方)。

一些人[谁?] 倾向于使用非中心化的相关系数 (non-Pearson-compliant) 。 比较如下。

例如,有5个国家的国民生产总值分别为 10, 20, 30, 50 和 80 亿美元。 假设这5个国家 (顺序相同) 的贫困百分比分别为 11%, 12%, 13%, 15%, 和 18% 。 令 xy 分别等于包含上述5个数据的向量: x = (1, 2, 3, 5, 8) 和 y = (0.11, 0.12, 0.13, 0.15, 0.18)。

利用通常的方法计算两个向量之间的夹角   (参见 数量积), 未中心化 的相关系数是:

 

我们发现以上的数据特意选定为完全相关: y = 0.10 + 0.01 x。 于是,皮尔逊相关系数应该等于1。将数据中心化 (通过E(x) = 3.8移动 x 和通过 E(y) = 0.138 移动 y ) 得到 x = (−2.8, −1.8, −0.8, 1.2, 4.2) 和 y = (−0.028, −0.018, −0.008, 0.012, 0.042), 从中,

 

对相关系数大小的解释

相关性
−0.09 to 0.0 0.0 to 0.09
−0.3 to −0.1 0.1 to 0.3
−0.5 to −0.3 0.3 to 0.5
−1.0 to −0.5 0.5 to 1.0

一些著作的作者[11][12] 给出了某些解释相关系数的指南。 然而, 所有这些标准从某种意义上说是武断的和不严格的。[12] 对相关系数的解释是依赖于具体的应用背景和目的的。 例如,若是在运用高性能的仪器来验证一个物理定律实验这样的应用背景下,0.9的相关系数可能是很低的。但如果是应用在社会科学中,由于社会科学受到各种复杂多变因素影响,0.9的相关系数是相当高的。

皮尔逊距离

皮尔逊距离度量的是两个变量X和Y,它可以根据皮尔逊系数定义成[13]

 

我们可以发现,皮尔逊系数落在 ,而皮尔逊距离落在 

统计推断:显著性检验与置信区间

 
图表显示对于给定的样本大小,在0.05的置信度上,皮尔逊相关系数显著不为零。

基于皮尔逊相关系数的统计推断通常关注以下两个目标。

  1. 验证零假设是否为真,即相关系数 ρ 是否等于 0, 该相关系数使用的是样本相关系数 r
  2. 在給定的置信水平α之下,构建一个围绕r置信区间

随机采样方法

显著性检验提供了一种假设检验和构造置信区间的直接方法。

对皮尔逊相关系数的显著性检验包括以下两个步骤:

  1. 随机地将原始的数据对 (xiyi)重新定义成数据集 (xiyi′), 其中 i′ 表示数列 {1,...,n}。 数列 i′ 的选取是随机的, 以相同的概率落在 n! 种可能的数列中。这等价于随机地"不可重复地"从数列{1,..., n}中选取 i′。一种相近的且合乎情理的方法(自助抽样法)是“可重复地”从数列{1,..., n}中选取 ii′
  2. 由随机数据构造相关系数r

为了完成显著性检验,需要多次重复步骤(i)和(ii) 。显著性检验的P值是由测试数据除以步骤(ii)得到的r,其中r大于由原始数据计算出的皮尔逊相关系数。在这里“大”可能是绝对值比较大或者是数值比较大,这取决于测试使用的是双尾检验英语two-tailed test或者是单尾检验英语one-tailed test

自助抽样法

自助抽样法可以被用来构造皮尔逊系数的置信区间。在"非参数"的自助抽样法中,“可重复”地从观测数据集n中重新采样n 对的 (xiyi) 数据,用来计算相关系数r。这个过程重复了大量次数,。重新采样后数据的 r值的分布被用来估计统计学上的样本分布英语sampling distributionρ的95%的置信区间可以被定义成重新采样样本 r值的%2.5到%97.5之间。

基于数学近似的方法

对于近似高斯分布的数据,皮尔逊相关系数的样本分布英语sampling distribution近似於自由度为N − 2的t分布。特别地,如果两个变量服从双变量正态分布,变量

 

也會服从不相关的t分布。[14] 如果样本容量不是特别小,这个结论也大致成立,即便观测数据不是正态分布的。[15]如果需要构建置信区间和进行有力的分析,还需要采用如下的可逆变换

 

或者,也可以采用大量采样数据的方法。

早期对样本相关系数的研究得益于R. A. Fisher[16][17]和A. K. Gayen.[18]的工作。 另一篇早期的论文[19] 给出了在小样本的情况下总体相关系数 ρ的图表, 并讨论了相关的计算方法。

准确服从高斯分布的数据

准确的双变量样本相关系数的分布是[20][21]

 

其中  伽玛函数 高斯超几何函数

注意到  , 因此 r 的一个有偏估计。一种获得无偏估计的方法是解 的方程   。 然而,解  是次优的。 一种无偏估计, 可以从 n较大情况下的最小方差和有偏序列  , 通过最大化  , 也就是 获得。

特殊情况下,当  时,分布可以被写成

 

其中  贝塔函数

費雪轉換

实际应用中, 与ρ相关的置信区间假设检验通常是通过費雪轉換获得

 

如果F(r)是r的費雪轉換,n 是样本容量,那么F(r)近似服从正态分布

     and standard error     

也就是Z-分數

 

  进行零假设,可以设想样本数据对是独立同分布并且服从双变量正态分布。因此P值估计可以从正态分布概率表中获得。比如,如果观测数据 z = 2.2,并且要用双尾p值对  进行零假设检验,p值是 2·Φ(−2.2) = 0.028, 其中Φ是正态分布的累积分布函数

置信区间

为了获得ρ的置信区间,首先,我们应该计算 F( )的置信区间:

 

通过可逆Fisher变换可以获得相关尺度上的区间。

 

举例来说,假设我们观测到 r = 0.3,样本容量 n=50,并且我们期望获得ρ的95%的置信区间。变换后的值是artanh(r) = 0.30952,所以在变换尺度上的置信区间是 0.30952 ± 1.96/√47,或者 (0.023624, 0.595415)。变换回相关尺度上是 (0.024, 0.534)。

皮尔逊相关系数和最小方差回归分析

样本相关系数的平方,亦称作决定系数,利用简单线性回归估计由X引起的Y的变化。一开始,Yi围绕它们平均值上的变化可以分解成

 

其中   是作回归分析时的适应值。 整理后得

 

两个被加数是由X (右边)引起的Y的变化和不是由X(左边)引起的变化。

接下来, 我们利用最小方差回归模型, 使    的样本协方差为0。 于是, 观测数据和适应值的样本相关系数可以被写成

 

于是

 

是由X的线性方程引起的Y的平均变化。

数据分布的敏感度

存在性

总体皮尔逊相关系数被定义成 ,因此任意的双变量概率分布是非零的,也就是说是由总体协方差边缘总体方差定义的。一些概率分布,如柯西分布的方差未定义,因此若XY服从这种分布,ρ便是未定义的。在实际应用中,若有懷疑数据服从重尾分布,就需要重视這个条件。然而,相关系数的存在性通常無關緊要,例如若分布有界,則ρ必有意义。

大样本的特性

在双变量正态分布的案例中,只要边缘均值和方差是已知的,总体相关系数描述的是便是联合分布。在其他的双变量分布中,这个结论并不正确。总之,不论两个随机变量的联合分布是不是正态的,相关系数都對研究它们之间的线性依赖性有帮助。[2]样本相关系数是对两个正态分布变量总体相关系数的最大似然估计,并且是渐进无偏有效率粵语效率 (統計學)的。換言之,如果数据是遵循正态分佈,并且样本容量不太小,就不可能构造出一个比样本相关系数更准确的估计。对于非正态的数据,样本相关系数大致上是无偏的,但有可能是无效的。只要样本均值、方差和协方差是一致的(当大数定理可以应用的情况下),样本相关系数是总体相关系数的一致估计

稳健性

与其他常用的统计指标類似,样本指标r穩健粵语頑健統計[22] 。因此如果由離群值,这个指标是有误导性的。[23][24]特别地,PMCC既不是稳健分布的[來源請求],也不是异常值稳健的[22] (見穩健統計粵语頑健統計)。观察XY散点图,可以認出是否缺乏稳健性,在这种情况下,采用的联合的方法是比较明智的。注意到,虽然大多数稳健的估计量,都有某程度的统计依赖,但总括而言,在总体相关系数的尺度上都是可辨的。

基于皮尔逊相关系数的统计推断,对数据分布敏感。如果数据大致是正态分布的,可以使用精确检验和基于费雪变换的渐进检验,但是它们可能有误导性。在一些情况下,自助采样可以用来构造置信区间。同时,重复抽样可以应用在假设检验中。这些非参数化的方法在某些情况下,如不能保证是双变量正态分布时,可能得出更有意义的结论。然而,这些方法的标准形式,依赖于数据要可交換英语exchangeable random variables。这也就意味着要分析的数据没有顺序的和组别之分,否則可能会影响估计相关系数的特性。

分层分析是一种容许缺少双变量正态性的方法,或者说是用来隔离相互关联因素的关联结果。如果W代表聚类成员或者其它需要控制的因素,則可以分离基于W的数据,然后可以再逐层计算相关系数。当控制变量W,便能在层的等级上估计与所有相关系数相关的各自的相关系数。[25]

计算加权相关系数

假设我们要计算关联性的观测数据有着不同的重要程度,表示成权值向量 w。 利用权值向量w (总长度 n)计算向量 xy 的相关系数,[26]

  • 加权均值:
 
  • 加权协方差
 
  • 加权相关系数
 

去除相关性

我们总是可以通过一定的线性变换去除随机变量之间的相关性, 即便变量间的关系是非线性的。 Cox & Hinkley[27]给出了在总体相关系数中的表达形式。

与此相应的,样本相关系数也存在这样的结论,使得样本相关系数变为0。假设长度为 n 的随机变量被随机采样 m 次。 令 X 是一个矩阵,其中   是第i次采样的第 j个变量。 令   是一个所有元素都为1的 m * m 的方阵。 那么 D 是变换后的数据,使得随机变量的均值为0, 并且 T 是变换后的数据,使得所有的变量均值为0和与除自身外的其他变量的相关系数为0 - T的矩作为身份矩阵。 为了得到单位方差,还需要除以标准差。 虽然变换后的数据有可能不是独立的,但他们一定是不相关的。

 


 

其中,指数-1/2表示矩阵置换后的矩阵方根。T的协方差被当做身份矩阵。如果新的样本数据x是n个元素的向量, 那么相同的变换可以应用到x中以获得变换向量d和t:

 


 

这个去相关性的方法被应用到多变量的主成分分析中。

反射相关性

反射相关系数是皮尔逊相关系数的变体,数据并不是以他们的均值为中心。[來源請求]总体反射相关系数是

 

反射相关系数是对称的, 但在如下的变换中并不是不变的

 

样本反射相关系数是

 

样本加权相关系数是

 

比例关系

规模的相关性是一个变种的皮尔森相关数据的范围限制故意以受控的方式揭示时间序列之间的快速成分的相关性。比例相关的定义是在短数据段的平均相关性。 对于给定规模S,令K为可以适应信号的总长度的段数:

 

比例相关的整个信号的rs的计算公式为

 

rs为k的部分皮尔森相关系数。 通过对参数s的选择,减少值的范围和较长的时间尺度上的相关性被过滤掉,只有在很短的时间尺度上的相关性被发现。因此,慢分量的贡献被删除,快分量被保留。

强噪声条件下

强噪声条件下,提取相关系数两个随机变量之间的是平凡的,特别是在典型相关分析报告在退化的相关值的情况下,由于存在大量噪声。一种概括的方法在其他地方给出。

相關條目

註釋

  1. ^ 文献中常用r或Pearson's r表示
  2. ^ As early as 1877, Galton was using the term "reversion" and the symbol "r" for what would become "regression".[4][5][6]
  3. ^ 计算样本皮尔逊系数的情况
  4. ^ 该结论在总体和样本皮尔逊相关系数中都成立

参考文献

  1. ^ "The human disease network", Albert Barabasi et al., Plos.org
  2. ^ 2.0 2.1 J. L. Rodgers and W. A. Nicewander. Thirteen ways to look at the correlation coefficient (页面存档备份,存于互联网档案馆). The American Statistician, 42(1):59–66, February 1988.
  3. ^ Stigler, Stephen M. Francis Galton's Account of the Invention of Correlation. Statistical Science. 1989, 4 (2): 73–79. JSTOR 2245329. doi:10.1214/ss/1177012580. 
  4. ^ Galton, F. . Nature. 5–19 April 1877, 15 (388, 389, 390): 492–495 ; 512–514 ; 532–533 [2022-06-05]. Bibcode:1877Natur..15..492.. S2CID 4136393. doi:10.1038/015492a0 . (原始内容存档于2022-07-03).  In the "Appendix" on page 532, Galton uses the term "reversion" and the symbol r.
  5. ^ Galton, F. . Nature. 24 September 1885, 32 (830): 507–510 [2022-06-05]. (原始内容存档于2022-07-03). 
  6. ^ Galton, F. . Journal of the Anthropological Institute of Great Britain and Ireland. 1886, 15: 246–263 [2022-06-05]. JSTOR 2841583. doi:10.2307/2841583. (原始内容存档于2022-07-03). 
  7. ^ Pearson, Karl. . Proceedings of the Royal Society of London. 20 June 1895, 58: 240–242 [2022-06-05]. Bibcode:1895RSPS...58..240P. (原始内容存档于2022-07-03). 
  8. ^ Stigler, Stephen M. Francis Galton's account of the invention of correlation. Statistical Science. 1989, 4 (2): 73–79. JSTOR 2245329. doi:10.1214/ss/1177012580 . 
  9. ^ . Mem. Acad. Roy. Sci. Inst. France. Sci. Math, et Phys. 1844, 9: 255–332 [2022-07-10]. (原始内容存档于2022-07-05) –通过Google Books (法语). 
  10. ^ Wright, S. Correlation and causation. Journal of Agricultural Research. 1921, 20 (7): 557–585. 
  11. ^ A. Buda and A.Jarynowski (2010) Life-time of correlations and its applications vol.1, Wydawnictwo Niezalezne: 5–21, December 2010, ISBN 978-83-915272-9-0
  12. ^ 12.0 12.1 Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.)
  13. ^ Fulekar (Ed.), M.H. (2009) Bioinformatics: Applications in Life and Environmental Sciences, Springer (pp. 110) ISBN 1402088795
  14. ^ N.A Rahman, A Course in Theoretical Statistics; Charles Griffin and Company, 1968
  15. ^ Kendall, M.G., Stuart, A. (1973)The Advanced Theory of Statistics, Volume 2: Inference and Relationship, Griffin. ISBN 0852642156 (Section 31.19)
  16. ^ Fisher, R.A. Frequency distribution of the values of the correlation coefficient in samples from an indefinitely large population. Biometrika. 1915, 10 (4): 507–521. doi:10.1093/biomet/10.4.507. 
  17. ^ Fisher, R.A. On the probable error of a coefficient of correlation deduced from a small sample (PDF). Metron. 1921, 1 (4): 3–32 [2009-03-25]. 
  18. ^ Gayen, A.K. The frequency distribution of the product moment correlation coefficient in random samples of any size draw from non-normal universes. Biometrika. 1951, 38: 219–247. doi:10.1093/biomet/38.1-2.219. 
  19. ^ Soper, H.E., Young, A.W., Cave, B.M., Lee, A., Pearson, K. (1917). "On the distribution of the correlation coefficient in small samples. Appendix II to the papers of "Student" and R. A. Fisher. A co-operative study", Biometrika, 11, 328-413. doi:10.1093/biomet/11.4.328
  20. ^ Kenney, J. F. and Keeping, E. S., Mathematics of Statistics, Pt. 2, 2nd ed. Princeton, NJ: Van Nostrand, 1951.
  21. ^ Weisstein, Eric W. (编). Correlation Coefficient - Bivariate Normal Distribution. at MathWorld--A Wolfram Web Resource. Wolfram Research, Inc. [2012-03-17]. (原始内容于2012-05-11) (英语). 
  22. ^ 22.0 22.1 Wilcox, Rand R. Introduction to robust estimation and hypothesis testing. Academic Press. 2005. 
  23. ^ Devlin, Susan J; Gnanadesikan, R; Kettenring J.R. Robust Estimation and Outlier Detection with Correlation Coefficients. Biometrika. 1975, 62 (3): 531–545. JSTOR 2335508. doi:10.1093/biomet/62.3.531. 
  24. ^ Huber, Peter. J. Robust Statistics. Wiley. 2004. [页码请求]
  25. ^ Katz., Mitchell H. (2006) Multivariable Analysis - A Practical Guide for Clinicians. 2nd Edition. Cambridge University Press. ISBN 9780521549851. ISBN 052154985X doi:10.2277/052154985X
  26. ^ http://sci.tech-archive.net/Archive/sci.stat.math/2006-02/msg00171.html</ref><ref[永久失效連結]>A MATLAB Toolbox for computing Weighted Correlation Coefficients (页面存档备份,存于互联网档案馆
  27. ^ Cox, D.R., Hinkley, D.V. (1974) Theoretical Statistics, Chapman & Hall (Appendix 3) ISBN 0412124203

外部連結

  • 相關係數:使用皮爾森檢定與斯皮爾曼等級檢定的研究問題[永久失效連結](中國醫藥大學,生物統計課程)
  • 相關係數:資料型態與適用統計方法[永久失效連結](中國醫藥大學,生物統計課程)

皮尔逊积矩相关系数, 此條目翻譯品質不佳, 2017年4月4日, 翻譯者可能不熟悉中文或原文語言, 也可能使用了機器翻譯, 請協助翻譯本條目或重新編寫, 并注意避免翻译腔的问题, 明顯拙劣的翻譯請改掛, href, template, html, class, redirect, title, template, href, wikipedia, html, class, redirect, title, wikipedia, 提交刪除, 在统计学中, 英語, pearson, product, moment, c. 此條目翻譯品質不佳 2017年4月4日 翻譯者可能不熟悉中文或原文語言 也可能使用了機器翻譯 請協助翻譯本條目或重新編寫 并注意避免翻译腔的问题 明顯拙劣的翻譯請改掛 a href Template D html class mw redirect title Template D d a a href Wikipedia CSD html G13 class mw redirect title Wikipedia CSD G13 a 提交刪除 在统计学中 皮尔逊积矩相关系数 英語 Pearson product moment correlation coefficient 缩写 PPMCC 或PCCs 1 註 1 有时简称相关系数 用于度量兩組數據的变量X和Y之间的線性相關的程度 它是兩個變量的協方差與其標準差的乘積之比 因此 它本質上是協方差的歸一化度量 因此結果始終具有介於 1和1之間的值 與協方差本身一樣 該度量只能反映變量的線性相關性 而忽略了許多其他類型的關係或相關性 舉個簡單的例子 可以預期高中青少年樣本的年齡和身高的皮尔逊积矩相关系数顯著大於0 但小於1 因為1表示不切實際的完美相關性 具有不同相關係數值 r 的散點圖示例 几组 x y 的点集 以及各个点集中x和y之间的相关系数 我们可以发现相关系数反映的是变量之间的线性关系和相关性的方向 第一排 而不是相关性的斜率 中间 也不是各种非线性关系 第三排 请注意 中间的图中斜率为0 但相关系数是没有意义的 因为此时变量Y是0 目录 1 命名和歷史 2 定义 3 数学特性 4 解释 4 1 几何学角度的解释 4 2 对相关系数大小的解释 4 3 皮尔逊距离 5 统计推断 显著性检验与置信区间 5 1 随机采样方法 5 2 自助抽样法 5 3 基于数学近似的方法 5 4 准确服从高斯分布的数据 5 5 費雪轉換 5 6 置信区间 6 皮尔逊相关系数和最小方差回归分析 7 数据分布的敏感度 7 1 存在性 7 2 大样本的特性 7 3 稳健性 8 计算加权相关系数 9 去除相关性 10 反射相关性 11 比例关系 12 强噪声条件下 13 相關條目 14 註釋 15 参考文献 16 外部連結命名和歷史 编辑它是由卡尔 皮尔逊从弗朗西斯 高尔顿在1880年代提出的一个相似却又稍有不同的想法演变而来 2 3 并且其数学公式由奥古斯特 布拉菲 Auguste Bravais 于1844年推导出和发表 註 2 7 8 9 10 系数的命名因此是Stigler名字由來法則的一个例子 这个相关系数也称作 皮尔森相关系数r 定义 编辑两个变量之间的皮尔逊相关系数定义为两个变量的协方差除以它们标准差的乘积 r X Y c o v X Y s X s Y E X m X Y m Y s X s Y displaystyle rho X Y mathrm cov X Y over sigma X sigma Y E X mu X Y mu Y over sigma X sigma Y 上式定义了总体相关系数 常用希腊小寫字母 r rho 作為代表符號 估算样本的协方差和标准差 可得到样本相关系数 样本皮尔逊系数 常用英文小寫字母 r 表示 r i 1 n X i X Y i Y i 1 n X i X 2 i 1 n Y i Y 2 displaystyle r frac sum limits i 1 n X i overline X Y i overline Y sqrt sum limits i 1 n X i overline X 2 sqrt sum limits i 1 n Y i overline Y 2 r 亦可由 X i Y i displaystyle X i Y i 样本点的標準分數均值估算 得到與上式等價的表達式 r 1 n 1 i 1 n X i X s X Y i Y s Y displaystyle r frac 1 n 1 sum limits i 1 n left frac X i overline X sigma X right left frac Y i overline Y sigma Y right 其中 X i X s X displaystyle frac X i overline X sigma X X displaystyle overline X 及 s X displaystyle sigma X 分别是 X i displaystyle X i 样本的標準分數 样本平均值和样本标准差 数学特性 编辑总体和样本皮尔逊系数的绝对值小于或等于1 如果样本数据点精确的落在直线上 註 3 或者双变量分布完全在直线上 计算总体皮尔逊系数的情况 则相关系数等于1或 1 皮尔逊系数是对称的 corr X Y corr Y X 皮尔逊相关系数有一个重要的数学特性是 因两个变量的位置和尺度的变化并不会引起该系数的改变 即它该变化的不变量 由符号确定 也就是说 我们如果把X移动到a bX和把Y移动到c dY 其中a b c和d是常数 并不会改变两个变量的相关系数 註 4 我们发现更一般的线性变换则会改变相关系数 参见之后章节对该特性应用的介绍 由于mX E X sX2 E X E X 2 E X2 E2 X Y也类似 并且 E X E X Y E Y E X Y E X E Y displaystyle E X E X Y E Y E XY E X E Y 故相关系数也可以表示成 r X Y E X Y E X E Y E X 2 E X 2 E Y 2 E Y 2 displaystyle rho X Y frac E XY E X E Y sqrt E X 2 E X 2 sqrt E Y 2 E Y 2 对于样本皮尔逊相关系数 r x y x i y i n x y n 1 s x s y n x i y i x i y i n x i 2 x i 2 n y i 2 y i 2 displaystyle r xy frac sum x i y i n bar x bar y n 1 s x s y frac n sum x i y i sum x i sum y i sqrt n sum x i 2 sum x i 2 sqrt n sum y i 2 sum y i 2 以上方程给出了计算样本皮尔逊相关系数简单的单流程算法 但是其依赖于涉及到的数据 有时它可能是数值不稳定的 解释 编辑皮尔逊相关系数的变化范围为 1到1 系数的值为1意味着X和 Y可以很好的由直线方程来描述 所有的数据点都很好的落在一条直线上 且 Y 随着 X 的增加而增加 系数的值为 1意味着所有的数据点都落在直线上 且 Y 随着 X 的增加而减少 系数的值为0意味着两个变量之间没有线性关系 更一般的 我们发现 当且仅当 Xi 和 Yi 均落在他们各自的均值的同一侧 则 Xi X Yi Y 的值为正 也就是说 如果Xi 和 Yi 同时趋向于大于 或同时趋向于小于他们各自的均值 则相关系数为正 如果 Xi 和 Yi 趋向于落在他们均值的相反一侧 则相关系数为负 几何学角度的解释 编辑 回归直线 y gx x 红色 和 x gy y 蓝色 对于没有进行中心化的数据 相关系数与两条可能的回归线y gx x 和 x gy y 夹角的余弦值一致 对于中心化过的数据 也就是说 数据移动一个样本平均值以使其均值为0 相关系数也可以被视作由两个随机变量向量夹角 8 displaystyle theta 的余弦值 见下方 一些人 谁 倾向于使用非中心化的相关系数 non Pearson compliant 比较如下 例如 有5个国家的国民生产总值分别为 10 20 30 50 和 80 亿美元 假设这5个国家 顺序相同 的贫困百分比分别为 11 12 13 15 和 18 令 x 和 y 分别等于包含上述5个数据的向量 x 1 2 3 5 8 和 y 0 11 0 12 0 13 0 15 0 18 利用通常的方法计算两个向量之间的夹角 8 displaystyle theta 参见 数量积 未中心化 的相关系数是 cos 8 x y x y 2 93 103 0 0983 0 920814711 displaystyle cos theta frac mathbf x cdot mathbf y left mathbf x right left mathbf y right frac 2 93 sqrt 103 sqrt 0 0983 0 920814711 我们发现以上的数据特意选定为完全相关 y 0 10 0 01 x 于是 皮尔逊相关系数应该等于1 将数据中心化 通过E x 3 8移动 x 和通过 E y 0 138 移动 y 得到 x 2 8 1 8 0 8 1 2 4 2 和 y 0 028 0 018 0 008 0 012 0 042 从中 cos 8 x y x y 0 308 30 8 0 00308 1 r x y displaystyle cos theta frac mathbf x cdot mathbf y left mathbf x right left mathbf y right frac 0 308 sqrt 30 8 sqrt 0 00308 1 rho xy 对相关系数大小的解释 编辑 相关性 负 正无 0 09 to 0 0 0 0 to 0 09弱 0 3 to 0 1 0 1 to 0 3中 0 5 to 0 3 0 3 to 0 5强 1 0 to 0 5 0 5 to 1 0一些著作的作者 11 12 给出了某些解释相关系数的指南 然而 所有这些标准从某种意义上说是武断的和不严格的 12 对相关系数的解释是依赖于具体的应用背景和目的的 例如 若是在运用高性能的仪器来验证一个物理定律实验这样的应用背景下 0 9的相关系数可能是很低的 但如果是应用在社会科学中 由于社会科学受到各种复杂多变因素影响 0 9的相关系数是相当高的 皮尔逊距离 编辑 皮尔逊距离度量的是两个变量X和Y 它可以根据皮尔逊系数定义成 13 d X Y 1 r X Y displaystyle d X Y 1 rho X Y 我们可以发现 皮尔逊系数落在 1 1 displaystyle 1 1 而皮尔逊距离落在 0 2 displaystyle 0 2 统计推断 显著性检验与置信区间 编辑 图表显示对于给定的样本大小 在0 05的置信度上 皮尔逊相关系数显著不为零 基于皮尔逊相关系数的统计推断通常关注以下两个目标 验证零假设是否为真 即相关系数 r 是否等于 0 该相关系数使用的是样本相关系数 r 在給定的置信水平a之下 构建一个围绕r的置信区间 随机采样方法 编辑 显著性检验 提供了一种假设检验和构造置信区间的直接方法 对皮尔逊相关系数的显著性检验包括以下两个步骤 随机地将原始的数据对 xi yi 重新定义成数据集 xi yi 其中 i 表示数列 1 n 数列 i 的选取是随机的 以相同的概率落在 n 种可能的数列中 这等价于随机地 不可重复地 从数列 1 n 中选取 i 一种相近的且合乎情理的方法 自助抽样法 是 可重复地 从数列 1 n 中选取 i 和 i 由随机数据构造相关系数r 为了完成显著性检验 需要多次重复步骤 i 和 ii 显著性检验的P值是由测试数据除以步骤 ii 得到的r 其中r大于由原始数据计算出的皮尔逊相关系数 在这里 大 可能是绝对值比较大或者是数值比较大 这取决于测试使用的是双尾检验 英语 two tailed test 或者是单尾检验 英语 one tailed test 自助抽样法 编辑 自助抽样法可以被用来构造皮尔逊系数的置信区间 在 非参数 的自助抽样法中 可重复 地从观测数据集n中重新采样n 对的 xi yi 数据 用来计算相关系数r 这个过程重复了大量次数 重新采样后数据的 r值的分布被用来估计统计学上的样本分布 英语 sampling distribution r的95 的置信区间可以被定义成重新采样样本 r值的 2 5到 97 5之间 基于数学近似的方法 编辑 对于近似高斯分布的数据 皮尔逊相关系数的样本分布 英语 sampling distribution 近似於自由度为N 2的t分布 特别地 如果两个变量服从双变量正态分布 变量 t r n 2 1 r 2 displaystyle t r sqrt frac n 2 1 r 2 也會服从不相关的t分布 14 如果样本容量不是特别小 这个结论也大致成立 即便观测数据不是正态分布的 15 如果需要构建置信区间和进行有力的分析 还需要采用如下的可逆变换 r t n 2 t 2 displaystyle r frac t sqrt n 2 t 2 或者 也可以采用大量采样数据的方法 早期对样本相关系数的研究得益于R A Fisher 16 17 和A K Gayen 18 的工作 另一篇早期的论文 19 给出了在小样本的情况下总体相关系数 r的图表 并讨论了相关的计算方法 准确服从高斯分布的数据 编辑 准确的双变量样本相关系数的分布是 20 21 f r n 2 G n 1 1 r 2 n 1 2 1 r 2 n 4 2 2 p G n 1 2 1 r r n 3 2 2 F 1 1 2 1 2 2 n 1 2 r r 1 2 displaystyle f left r right frac left n 2 right mathbf Gamma left n 1 right left 1 rho 2 right frac n 1 2 left 1 r 2 right frac n 4 2 sqrt 2 pi mathbf Gamma left n frac 1 2 right left 1 rho r right n frac 3 2 mathbf 2 F 1 left frac 1 2 frac 1 2 frac 2n 1 2 frac rho r 1 2 right 其中 G displaystyle mathbf Gamma 是伽玛函数 2 F 1 a b c z displaystyle mathbf 2 F 1 a b c z 是高斯超几何函数 注意到 E r r r 1 r 2 2 n 1 displaystyle E left r right rho frac rho left 1 rho 2 right 2 left n 1 right cdots 因此 r 是r displaystyle rho 的一个有偏估计 一种获得无偏估计的方法是解r displaystyle rho 的方程 r E r r r 1 r 2 2 n 1 displaystyle r E left r right rho frac rho left 1 rho 2 right 2 left n 1 right 然而 解 r r 1 1 r 2 2 n 1 displaystyle breve rho r left 1 frac 1 r 2 2 left n 1 right right 是次优的 一种无偏估计 可以从 n较大情况下的最小方差和有偏序列 1 n 1 displaystyle frac 1 n 1 通过最大化 log f r displaystyle log f left r right 也就是r r 1 1 r 2 2 n 1 displaystyle hat rho r left 1 frac 1 r 2 2 left n 1 right right 获得 特殊情况下 当 r 0 displaystyle rho 0 时 分布可以被写成 f r 1 r 2 n 4 2 B 1 2 n 2 2 displaystyle f left r right frac left 1 r 2 right frac n 4 2 mathbf B left frac 1 2 frac n 2 2 right 其中 B displaystyle mathbf B 是贝塔函数 費雪轉換 编辑 实际应用中 与r相关的置信区间和假设检验通常是通过費雪轉換获得 F r 1 2 ln 1 r 1 r arctanh r displaystyle F r 1 over 2 ln 1 r over 1 r operatorname arctanh r 如果F r 是r的費雪轉換 n 是样本容量 那么F r 近似服从正态分布 mean F r arctanh r displaystyle text mean F rho operatorname arctanh rho and standard error SE 1 n 3 displaystyle text SE frac 1 sqrt n 3 也就是Z 分數是 z x mean SE F r F r 0 n 3 displaystyle z frac x text mean text SE F r F rho 0 sqrt n 3 对r r 0 displaystyle rho rho 0 进行零假设 可以设想样本数据对是独立同分布并且服从双变量正态分布 因此P值估计可以从正态分布概率表中获得 比如 如果观测数据 z 2 2 并且要用双尾p值对 r 0 displaystyle rho 0 进行零假设检验 p值是 2 F 2 2 0 028 其中F是正态分布的累积分布函数 置信区间 编辑 为了获得r的置信区间 首先 我们应该计算 F r displaystyle rho 的置信区间 100 1 a CI arctanh r arctanh r z a 2 S E displaystyle 100 1 alpha text CI operatorname arctanh rho in operatorname arctanh r pm z alpha 2 SE 通过可逆Fisher变换可以获得相关尺度上的区间 100 1 a CI r tanh arctanh r z a 2 S E tanh arctanh r z a 2 S E displaystyle 100 1 alpha text CI rho in operatorname tanh operatorname arctanh r z alpha 2 SE operatorname tanh operatorname arctanh r z alpha 2 SE 举例来说 假设我们观测到 r 0 3 样本容量 n 50 并且我们期望获得r的95 的置信区间 变换后的值是artanh r 0 30952 所以在变换尺度上的置信区间是 0 30952 1 96 47 或者 0 023624 0 595415 变换回相关尺度上是 0 024 0 534 皮尔逊相关系数和最小方差回归分析 编辑样本相关系数的平方 亦称作决定系数 利用简单线性回归估计由X引起的Y的变化 一开始 Yi围绕它们平均值上的变化可以分解成 i Y i Y 2 i Y i Y i 2 i Y i Y 2 displaystyle sum i Y i bar Y 2 sum i Y i hat Y i 2 sum i hat Y i bar Y 2 其中 Y i displaystyle hat Y i 是作回归分析时的适应值 整理后得 1 i Y i Y i 2 i Y i Y 2 i Y i Y 2 i Y i Y 2 displaystyle 1 frac sum i Y i hat Y i 2 sum i Y i bar Y 2 frac sum i hat Y i bar Y 2 sum i Y i bar Y 2 两个被加数是由X 右边 引起的Y的变化和不是由X 左边 引起的变化 接下来 我们利用最小方差回归模型 使 Y i displaystyle hat Y i 和 Y i Y i displaystyle Y i hat Y i 的样本协方差为0 于是 观测数据和适应值的样本相关系数可以被写成r Y Y i Y i Y Y i Y i Y i Y 2 i Y i Y 2 i Y i Y i Y i Y Y i Y i Y i Y 2 i Y i Y 2 i Y i Y i Y i Y Y i Y 2 i Y i Y 2 i Y i Y 2 i Y i Y 2 i Y i Y 2 i Y i Y 2 i Y i Y 2 i Y i Y 2 displaystyle begin aligned r Y hat Y amp frac sum i Y i bar Y hat Y i bar Y sqrt sum i Y i bar Y 2 cdot sum i hat Y i bar Y 2 amp frac sum i Y i hat Y i hat Y i bar Y hat Y i bar Y sqrt sum i Y i bar Y 2 cdot sum i hat Y i bar Y 2 amp frac sum i Y i hat Y i hat Y i bar Y hat Y i bar Y 2 sqrt sum i Y i bar Y 2 cdot sum i hat Y i bar Y 2 amp frac sum i hat Y i bar Y 2 sqrt sum i Y i bar Y 2 cdot sum i hat Y i bar Y 2 amp sqrt frac sum i hat Y i bar Y 2 sum i Y i bar Y 2 end aligned 于是 r Y Y 2 i Y i Y 2 i Y i Y 2 displaystyle r Y hat Y 2 frac sum i hat Y i bar Y 2 sum i Y i bar Y 2 是由X的线性方程引起的Y的平均变化 数据分布的敏感度 编辑存在性 编辑 总体皮尔逊相关系数被定义成 矩 因此任意的双变量概率分布是非零的 也就是说是由总体协方差和边缘总体方差定义的 一些概率分布 如柯西分布的方差未定义 因此若X或Y服从这种分布 r便是未定义的 在实际应用中 若有懷疑数据服从重尾分布 就需要重视這个条件 然而 相关系数的存在性通常無關緊要 例如若分布有界 則r必有意义 大样本的特性 编辑 在双变量正态分布的案例中 只要边缘均值和方差是已知的 总体相关系数描述的是便是联合分布 在其他的双变量分布中 这个结论并不正确 总之 不论两个随机变量的联合分布是不是正态的 相关系数都對研究它们之间的线性依赖性有帮助 2 样本相关系数是对两个正态分布变量总体相关系数的最大似然估计 并且是渐进无偏和有效率 粵语 效率 統計學 的 換言之 如果数据是遵循正态分佈 并且样本容量不太小 就不可能构造出一个比样本相关系数更准确的估计 对于非正态的数据 样本相关系数大致上是无偏的 但有可能是无效的 只要样本均值 方差和协方差是一致的 当大数定理可以应用的情况下 样本相关系数是总体相关系数的一致估计 稳健性 编辑 与其他常用的统计指标類似 样本指标r不穩健 粵语 頑健統計 22 因此如果由離群值 这个指标是有误导性的 23 24 特别地 PMCC既不是稳健分布的 來源請求 也不是异常值稳健的 22 見穩健統計 粵语 頑健統計 观察X和Y的散点图 可以認出是否缺乏稳健性 在这种情况下 采用的联合的方法是比较明智的 注意到 虽然大多数稳健的估计量 都有某程度的统计依赖 但总括而言 在总体相关系数的尺度上都是可辨的 基于皮尔逊相关系数的统计推断 对数据分布敏感 如果数据大致是正态分布的 可以使用精确检验和基于费雪变换的渐进检验 但是它们可能有误导性 在一些情况下 自助采样可以用来构造置信区间 同时 重复抽样可以应用在假设检验中 这些非参数化的方法在某些情况下 如不能保证是双变量正态分布时 可能得出更有意义的结论 然而 这些方法的标准形式 依赖于数据要可交換 英语 exchangeable random variables 这也就意味着要分析的数据没有顺序的和组别之分 否則可能会影响估计相关系数的特性 分层分析是一种容许缺少双变量正态性的方法 或者说是用来隔离相互关联因素的关联结果 如果W代表聚类成员或者其它需要控制的因素 則可以分离基于W的数据 然后可以再逐层计算相关系数 当控制变量W 便能在层的等级上估计与所有相关系数相关的各自的相关系数 25 计算加权相关系数 编辑假设我们要计算关联性的观测数据有着不同的重要程度 表示成权值向量 w 利用权值向量w 总长度 n 计算向量 x 和 y 的相关系数 26 加权均值 m x w i w i x i i w i displaystyle operatorname m x w sum i w i x i over sum i w i dd 加权协方差cov x y w i w i x i m x w y i m y w i w i displaystyle operatorname cov x y w sum i w i x i operatorname m x w y i operatorname m y w over sum i w i dd 加权相关系数corr x y w cov x y w cov x x w cov y y w displaystyle operatorname corr x y w operatorname cov x y w over sqrt operatorname cov x x w operatorname cov y y w dd 去除相关性 编辑我们总是可以通过一定的线性变换去除随机变量之间的相关性 即便变量间的关系是非线性的 Cox amp Hinkley 27 给出了在总体相关系数中的表达形式 与此相应的 样本相关系数也存在这样的结论 使得样本相关系数变为0 假设长度为 n 的随机变量被随机采样 m 次 令 X 是一个矩阵 其中 X i j displaystyle X i j 是第i次采样的第 j个变量 令 Z m m displaystyle Z m m 是一个所有元素都为1的 m m 的方阵 那么 D 是变换后的数据 使得随机变量的均值为0 并且 T 是变换后的数据 使得所有的变量均值为0和与除自身外的其他变量的相关系数为0 T的矩作为身份矩阵 为了得到单位方差 还需要除以标准差 虽然变换后的数据有可能不是独立的 但他们一定是不相关的 D X 1 m Z m m X displaystyle D X frac 1 m Z m m X T D D T D 1 2 displaystyle T D D T D frac 1 2 其中 指数 1 2表示矩阵置换后的矩阵方根 T的协方差被当做身份矩阵 如果新的样本数据x是n个元素的向量 那么相同的变换可以应用到x中以获得变换向量d和t d x 1 m Z 1 m X displaystyle d x frac 1 m Z 1 m X t d D T D 1 2 displaystyle t d D T D frac 1 2 这个去相关性的方法被应用到多变量的主成分分析中 反射相关性 编辑反射相关系数是皮尔逊相关系数的变体 数据并不是以他们的均值为中心 來源請求 总体反射相关系数是 Corr r X Y E X Y E X 2 E Y 2 displaystyle text Corr r X Y frac E XY sqrt EX 2 cdot EY 2 反射相关系数是对称的 但在如下的变换中并不是不变的 Corr r X Y Corr r Y X Corr r X b Y Corr r X a b Y a 0 b gt 0 displaystyle text Corr r X Y text Corr r Y X text Corr r X bY neq text Corr r X a bY quad a neq 0 b gt 0 样本反射相关系数是 r r x y x i y i x i 2 y i 2 displaystyle rr xy frac sum x i y i sqrt sum x i 2 sum y i 2 样本加权相关系数是 r r x y w w i x i y i w i x i 2 w i y i 2 displaystyle rr xy w frac sum w i x i y i sqrt sum w i x i 2 sum w i y i 2 比例关系 编辑规模的相关性是一个变种的皮尔森相关数据的范围限制故意以受控的方式揭示时间序列之间的快速成分的相关性 比例相关的定义是在短数据段的平均相关性 对于给定规模S 令K为可以适应信号的总长度的段数 K S o u n d T s displaystyle mathbf K mathbf Sound left frac T s right 比例相关的整个信号的rs的计算公式为 r s 1 K k 1 K r k displaystyle overrightarrow r s frac 1 K sum k 1 K r k rs为k的部分皮尔森相关系数 通过对参数s的选择 减少值的范围和较长的时间尺度上的相关性被过滤掉 只有在很短的时间尺度上的相关性被发现 因此 慢分量的贡献被删除 快分量被保留 强噪声条件下 编辑强噪声条件下 提取相关系数两个随机变量之间的是平凡的 特别是在典型相关分析报告在退化的相关值的情况下 由于存在大量噪声 一种概括的方法在其他地方给出 相關條目 编辑安斯库姆四重奏 相关 概率论 斯皮尔曼等级相关系数 Spearman s rank correlation coefficient 回归衰减 英语 Regression dilution 最大信息系数 英语 Maximal information coefficient 圖模式 马尔可夫链 马尔可夫逻辑网络註釋 编辑 文献中常用r或Pearson s r表示 As early as 1877 Galton was using the term reversion and the symbol r for what would become regression 4 5 6 计算样本皮尔逊系数的情况 该结论在总体和样本皮尔逊相关系数中都成立参考文献 编辑 The human disease network Albert Barabasi et al Plos org 2 0 2 1 J L Rodgers and W A Nicewander Thirteen ways to look at the correlation coefficient 页面存档备份 存于互联网档案馆 The American Statistician 42 1 59 66 February 1988 Stigler Stephen M Francis Galton s Account of the Invention of Correlation Statistical Science 1989 4 2 73 79 JSTOR 2245329 doi 10 1214 ss 1177012580 Galton F Typical laws of heredity Nature 5 19 April 1877 15 388 389 390 492 495 512 514 532 533 2022 06 05 Bibcode 1877Natur 15 492 S2CID 4136393 doi 10 1038 015492a0 原始内容存档于2022 07 03 In the Appendix on page 532 Galton uses the term reversion and the symbol r Galton F The British Association Section II Anthropology Opening address by Francis Galton F R S etc President of the Anthropological Institute President of the Section Nature 24 September 1885 32 830 507 510 2022 06 05 原始内容存档于2022 07 03 Galton F Regression towards mediocrity in hereditary stature Journal of the Anthropological Institute of Great Britain and Ireland 1886 15 246 263 2022 06 05 JSTOR 2841583 doi 10 2307 2841583 原始内容存档于2022 07 03 Pearson Karl Notes on regression and inheritance in the case of two parents Proceedings of the Royal Society of London 20 June 1895 58 240 242 2022 06 05 Bibcode 1895RSPS 58 240P 原始内容存档于2022 07 03 Stigler Stephen M Francis Galton s account of the invention of correlation Statistical Science 1989 4 2 73 79 JSTOR 2245329 doi 10 1214 ss 1177012580 Analyse mathematique sur les probabilites des erreurs de situation d un point Mem Acad Roy Sci Inst France Sci Math et Phys 1844 9 255 332 2022 07 10 原始内容存档于2022 07 05 通过Google Books 法语 Wright S Correlation and causation Journal of Agricultural Research 1921 20 7 557 585 A Buda and A Jarynowski 2010 Life time of correlations and its applications vol 1 Wydawnictwo Niezalezne 5 21 December 2010 ISBN 978 83 915272 9 0 12 0 12 1 Cohen J 1988 Statistical power analysis for the behavioral sciences 2nd ed Fulekar Ed M H 2009 Bioinformatics Applications in Life and Environmental Sciences Springer pp 110 ISBN 1402088795 N A Rahman A Course in Theoretical Statistics Charles Griffin and Company 1968 Kendall M G Stuart A 1973 The Advanced Theory of Statistics Volume 2 Inference and Relationship Griffin ISBN 0852642156 Section 31 19 Fisher R A Frequency distribution of the values of the correlation coefficient in samples from an indefinitely large population Biometrika 1915 10 4 507 521 doi 10 1093 biomet 10 4 507 Fisher R A On the probable error of a coefficient of correlation deduced from a small sample PDF Metron 1921 1 4 3 32 2009 03 25 Gayen A K The frequency distribution of the product moment correlation coefficient in random samples of any size draw from non normal universes Biometrika 1951 38 219 247 doi 10 1093 biomet 38 1 2 219 Soper H E Young A W Cave B M Lee A Pearson K 1917 On the distribution of the correlation coefficient in small samples Appendix II to the papers of Student and R A Fisher A co operative study Biometrika 11 328 413 doi 10 1093 biomet 11 4 328 Kenney J F and Keeping E S Mathematics of Statistics Pt 2 2nd ed Princeton NJ Van Nostrand 1951 Weisstein Eric W 编 Correlation Coefficient Bivariate Normal Distribution at MathWorld A Wolfram Web Resource Wolfram Research Inc 2012 03 17 原始内容存档于2012 05 11 英语 22 0 22 1 Wilcox Rand R Introduction to robust estimation and hypothesis testing Academic Press 2005 Devlin Susan J Gnanadesikan R Kettenring J R Robust Estimation and Outlier Detection with Correlation Coefficients Biometrika 1975 62 3 531 545 JSTOR 2335508 doi 10 1093 biomet 62 3 531 引文使用过时参数coauthors 帮助 Huber Peter J Robust Statistics Wiley 2004 页码请求 Katz Mitchell H 2006 Multivariable Analysis A Practical Guide for Clinicians 2nd Edition Cambridge University Press ISBN 9780521549851 ISBN 052154985X doi 10 2277 052154985X http sci tech archive net Archive sci stat math 2006 02 msg00171 html lt ref gt lt ref 永久失效連結 gt A MATLAB Toolbox for computing Weighted Correlation Coefficients 页面存档备份 存于互联网档案馆 Cox D R Hinkley D V 1974 Theoretical Statistics Chapman amp Hall Appendix 3 ISBN 0412124203外部連結 编辑相關係數 使用皮爾森檢定與斯皮爾曼等級檢定的研究問題 永久失效連結 中國醫藥大學 生物統計課程 相關係數 資料型態與適用統計方法 永久失效連結 中國醫藥大學 生物統計課程 取自 https zh wikipedia org w index php title 皮尔逊积矩相关系数 amp oldid 74738456, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。