fbpx
维基百科

相关 (概率论)

相关(Correlation),又称为相关性关联,在概率论统计学中,相关显示了两个或几个随机变量之间线性关系的强度和方向。在统计学中,相关的意义是:用来衡量两个变量相对于其相互独立的距离。在这个广义的定义下,有许多根据数据特点用来衡量数据相关性而定义的系数,称作 相关系数。通常使用相关系数来计量这些随机变量协同变化的程度,当随机变量间呈现同一方向的变化趋势时称为正相关,反之则称为负相关

几组(x, y)的点集,以及各个点集中x和y之间的相关系数。我们可以发现相关系数反映的是变量之间的线性关系和相关性的方向(第一排),而不是相关性的斜率(中间),也不是各种非线性关系(第三排)。请注意:中间的图中斜率为0,但相关系数是没有意义的,因为此时变量Y是0

历史 编辑

英国生物学家和统计学家弗朗西斯·高尔顿首先提出“相关”这一概念,英国数学家卡尔·皮尔逊在此基础上做出了进一步发展。

各種相關係數 编辑

对于不同測量尺度的變數,有不同的相關系数可用:

  • 皮尔逊相关系数(Pearson's r):衡量兩個等距尺度等比尺度變數之相關性。是最常見的,也是學習統計學時第一個接觸的相關係數。
  • 淨相關(英語:partial correlation):在模型中有多個自變數(或解釋變數)時,去除掉其他自變數的影響,只衡量特定一個自變數與因變數之間的相關性。自變數和因變數皆為連續變數。
  • 相關比(英語:correlation ratio):衡量兩個連續變數之相關性。
  • Phi相關係數(英語:Phi coefficient):衡量兩個真正名目尺度的二分變數之相關性。
  • 列聯相關係數(英語:contingency coefficient):衡量兩個真正名目尺度變數之相關性。
  • 四分相關(英語:tetrachoric correlation):衡量兩個人為名目尺度(原始資料為等距尺度)的二分變數之相關性。
  • Kappa一致性係數(英語:K coefficient of agreement):衡量兩個名目尺度變數之相關性。
  • 點二系列相關係數(英語:point-biserial correlation):X變數是真正名目尺度二分變數。Y變數是連續變數。
  • 二系列相關係數(英語:biserial correlation):X變數是人為名目尺度二分變數。Y變數是連續變數。

皮尔逊积差系数 编辑

数学特征 编辑

 

其中,E数学期望,cov表示协方差  標準差

因为  ,同样地,对于 ,可以写成

 

当两个变量的標準差都不为零,相关系数才有定义。从柯西-施瓦茨不等式可知,相关系数的絕對值不超过1。当两个变量的线性关系增强时,相关系数趋于1或-1。当一个变量增加而另一变量也增加时,相关系数大于0。当一个变量的增加而另一变量减少时,相关系数小于0。当两个变量独立时,相关系数为0,但反之并不成立。这是因为相关系数仅仅反映了两个变量之间是否线性相关。比如说,X是区间[-1,1]上的一个均匀分布的随机变量。Y = X2.那么Y是完全由X确定。因此YX不独立,但相关系数为0。或者说他们是不相关的。当YX服从联合正态分布时,其相互独立和不相关是等价的。

当一个或两个变量带有测量误差时,他们的相关性就受到削弱,这时,“反衰减”性(disattenuation)是一个更准确的系数。

几何特征 编辑

对于居中的数据来说(何谓居中?也就是每个数据减去样本均值,居中后它们的平均值就为0),相关系数可以看作是两个随机变量中得到的样本集向量之间夹角的cosine函数。一些实际工作者更喜欢用非居中的相关系数(与皮尔逊系数不相兼容)。看下面的例子中有一个比较。例如,假设五个国家的国民生产总值分别是1、2、3、5、8(单位10亿美元),又假设这五个国家的贫困比例分别是11%、12%、13%、15%、18%。则我们现在有两个有序的包含5个元素的向量x、y:x =(1, 2, 3, 5, 8)、 y =(0.11, 0.12, 0.13, 0.15, 0.18) 使用一般的方法来计算向量间夹角(参考数量积),未居中的相关性系数如下:

 

上面的数据实际上是故意选择了一个完美的线性关系:y = 0.10 + 0.01 x。因此皮尔逊相关系数应该就是1。把数据居中(x中数据减去E (x) = 3.8,y中数据减去E (y) = 0.138)后得到:x =(−2.8, −1.8, −0.8, 1.2, 4.2)、y =(−0.028, −0.018, −0.008, 0.012, 0.042),由此得到了预期结果:

 

统计学上的相关 编辑

样本相关系数 编辑

对于样本对 ,相关系数的计算过程可表示为:将每个变量都通过减去平均值、再除以校正标准差后转化为标准单位,乘积的平均值,再经过贝塞尔校正英语Bessel's correction即为相关系数[1]

两个变量的关系可以直观地用散点图表示,当其紧密地群聚于一条直线的周围时,变量间存在强相关[2]

一个散点图可以用五个统计量来概括:所有 值的平均数 ,所有 值的校正标准差(即样本标准差) ,所有 值的平均数 ,所有 值的校正标准差 ,相关系数 

其中:

 


那么:

 

或写成:

 ,

其中 贝塞尔校正英语Bessel's correction

參考文獻 编辑

  1. ^ David Freedman; Robert Pisani, Roger Purves. Statistics. Norton & Company. 1998: 148. ISBN 9780393960433. 3 (英语). 
  2. ^ David Freedman; Robert Pisani, Roger Purves. Statistics. Norton & Company. 1998: 156. ISBN 9780393960433. 3 (英语). 

参见 编辑

相关, 概率论, 关于与, 標題相近或相同的条目, 請見, 因果關係, 相关, correlation, 又称为相关性, 关联, 在概率论和统计学中, 相关显示了两个或几个随机变量之间线性关系的强度和方向, 在统计学中, 相关的意义是, 用来衡量两个变量相对于其相互独立的距离, 在这个广义的定义下, 有许多根据数据特点用来衡量数据相关性而定义的系数, 称作, 相关系数, 通常使用相关系数来计量这些随机变量协同变化的程度, 当随机变量间呈现同一方向的变化趋势时称为正相关, 反之则称为负相关, 几组, 的点集, 以及各. 关于与 相关 概率论 標題相近或相同的条目 請見 因果關係 相关 Correlation 又称为相关性 关联 在概率论和统计学中 相关显示了两个或几个随机变量之间线性关系的强度和方向 在统计学中 相关的意义是 用来衡量两个变量相对于其相互独立的距离 在这个广义的定义下 有许多根据数据特点用来衡量数据相关性而定义的系数 称作 相关系数 通常使用相关系数来计量这些随机变量协同变化的程度 当随机变量间呈现同一方向的变化趋势时称为正相关 反之则称为负相关 几组 x y 的点集 以及各个点集中x和y之间的相关系数 我们可以发现相关系数反映的是变量之间的线性关系和相关性的方向 第一排 而不是相关性的斜率 中间 也不是各种非线性关系 第三排 请注意 中间的图中斜率为0 但相关系数是没有意义的 因为此时变量Y是0目录 1 历史 2 各種相關係數 3 皮尔逊积差系数 3 1 数学特征 3 2 几何特征 4 统计学上的相关 4 1 样本相关系数 5 參考文獻 6 参见历史 编辑英国生物学家和统计学家弗朗西斯 高尔顿首先提出 相关 这一概念 英国数学家卡尔 皮尔逊在此基础上做出了进一步发展 各種相關係數 编辑对于不同測量尺度的變數 有不同的相關系数可用 皮尔逊相关系数 Pearson s r 衡量兩個等距尺度或等比尺度變數之相關性 是最常見的 也是學習統計學時第一個接觸的相關係數 淨相關 英語 partial correlation 在模型中有多個自變數 或解釋變數 時 去除掉其他自變數的影響 只衡量特定一個自變數與因變數之間的相關性 自變數和因變數皆為連續變數 相關比 英語 correlation ratio 衡量兩個連續變數之相關性 Gamma相關係數 衡量兩個次序尺度變數之相關性 斯皮尔曼等级相关系数 衡量兩個次序尺度變數之相關性 肯德尔等級相關係數 英语 Kendall rank correlation coefficient 衡量兩個人為次序尺度變數 原始資料為等距尺度 之相關性 肯德尔和諧係數 衡量兩個次序尺度變數之相關性 Phi相關係數 英語 Phi coefficient 衡量兩個真正名目尺度的二分變數之相關性 列聯相關係數 英語 contingency coefficient 衡量兩個真正名目尺度變數之相關性 四分相關 英語 tetrachoric correlation 衡量兩個人為名目尺度 原始資料為等距尺度 的二分變數之相關性 Kappa一致性係數 英語 K coefficient of agreement 衡量兩個名目尺度變數之相關性 點二系列相關係數 英語 point biserial correlation X變數是真正名目尺度二分變數 Y變數是連續變數 二系列相關係數 英語 biserial correlation X變數是人為名目尺度二分變數 Y變數是連續變數 皮尔逊积差系数 编辑主条目 皮尔逊积矩相关系数 数学特征 编辑 r X Y c o v X Y s X s Y E X m X Y m Y s X s Y displaystyle rho X Y mathrm cov X Y over sigma X sigma Y E X mu X Y mu Y over sigma X sigma Y nbsp 其中 E是数学期望 cov表示协方差 s X displaystyle sigma X nbsp 和s Y displaystyle sigma Y nbsp 是標準差 因为m X E X displaystyle mu X E X nbsp s X 2 E X 2 E 2 X displaystyle sigma X 2 E X 2 E 2 X nbsp 同样地 对于Y displaystyle Y nbsp 可以写成 r X Y E X Y E X E Y E X 2 E 2 X E Y 2 E 2 Y displaystyle rho X Y frac E XY E X E Y sqrt E X 2 E 2 X sqrt E Y 2 E 2 Y nbsp 当两个变量的標準差都不为零 相关系数才有定义 从柯西 施瓦茨不等式可知 相关系数的絕對值不超过1 当两个变量的线性关系增强时 相关系数趋于1或 1 当一个变量增加而另一变量也增加时 相关系数大于0 当一个变量的增加而另一变量减少时 相关系数小于0 当两个变量独立时 相关系数为0 但反之并不成立 这是因为相关系数仅仅反映了两个变量之间是否线性相关 比如说 X是区间 1 1 上的一个均匀分布的随机变量 Y X2 那么Y是完全由X确定 因此Y和X不独立 但相关系数为0 或者说他们是不相关的 当Y和X服从联合正态分布时 其相互独立和不相关是等价的 当一个或两个变量带有测量误差时 他们的相关性就受到削弱 这时 反衰减 性 disattenuation 是一个更准确的系数 几何特征 编辑 对于居中的数据来说 何谓居中 也就是每个数据减去样本均值 居中后它们的平均值就为0 相关系数可以看作是两个随机变量中得到的样本集向量之间夹角的cosine函数 一些实际工作者更喜欢用非居中的相关系数 与皮尔逊系数不相兼容 看下面的例子中有一个比较 例如 假设五个国家的国民生产总值分别是1 2 3 5 8 单位10亿美元 又假设这五个国家的贫困比例分别是11 12 13 15 18 则我们现在有两个有序的包含5个元素的向量x y x 1 2 3 5 8 y 0 11 0 12 0 13 0 15 0 18 使用一般的方法来计算向量间夹角 参考数量积 未居中的相关性系数如下 cos 8 x y x y 2 93 103 0 0983 0 920814711 displaystyle cos theta frac mathbf x cdot mathbf y left mathbf x right left mathbf y right frac 2 93 sqrt 103 sqrt 0 0983 0 920814711 nbsp 上面的数据实际上是故意选择了一个完美的线性关系 y 0 10 0 01 x 因此皮尔逊相关系数应该就是1 把数据居中 x中数据减去E x 3 8 y中数据减去E y 0 138 后得到 x 2 8 1 8 0 8 1 2 4 2 y 0 028 0 018 0 008 0 012 0 042 由此得到了预期结果 cos 8 x y x y 0 308 30 8 0 00308 1 r x y displaystyle cos theta frac mathbf x cdot mathbf y left mathbf x right left mathbf y right frac 0 308 sqrt 30 8 sqrt 0 00308 1 rho xy nbsp 统计学上的相关 编辑样本相关系数 编辑 对于样本对 X i Y i displaystyle X i Y i nbsp 相关系数的计算过程可表示为 将每个变量都通过减去平均值 再除以校正标准差后转化为标准单位 乘积的平均值 再经过贝塞尔校正 英语 Bessel s correction 即为相关系数 1 两个变量的关系可以直观地用散点图表示 当其紧密地群聚于一条直线的周围时 变量间存在强相关 2 一个散点图可以用五个统计量来概括 所有x displaystyle x nbsp 值的平均数x displaystyle bar x nbsp 所有x displaystyle x nbsp 值的校正标准差 即样本标准差 s x displaystyle s x nbsp 所有y displaystyle y nbsp 值的平均数y displaystyle bar y nbsp 所有y displaystyle y nbsp 值的校正标准差s y displaystyle s y nbsp 相关系数r x y displaystyle r xy nbsp 其中 s x 1 N 1 i 1 N x i x 2 s y 1 N 1 i 1 N y i y 2 displaystyle s x sqrt frac 1 N 1 sum i 1 N x i overline x 2 s y sqrt frac 1 N 1 sum i 1 N y i overline y 2 nbsp 那么 r x y d e f i 1 n x i x y i y n 1 s x s y i 1 n x i x y i y i 1 n x i x 2 i 1 n y i y 2 displaystyle r xy quad overset underset mathrm def quad frac sum limits i 1 n x i bar x y i bar y n 1 s x s y frac sum limits i 1 n x i bar x y i bar y sqrt sum limits i 1 n x i bar x 2 sum limits i 1 n y i bar y 2 nbsp 或写成 r x y d e f n n 1 1 n i 1 n x i x s x y i y s y displaystyle r xy quad overset underset mathrm def quad frac n n 1 frac 1 n sum limits i 1 n frac x i bar x s x frac y i bar y s y nbsp 其中n n 1 displaystyle frac n n 1 nbsp 为贝塞尔校正 英语 Bessel s correction 參考文獻 编辑 David Freedman Robert Pisani Roger Purves Statistics Norton amp Company 1998 148 ISBN 9780393960433 3 英语 引文使用过时参数coauthors 帮助 David Freedman Robert Pisani Roger Purves Statistics Norton amp Company 1998 156 ISBN 9780393960433 3 英语 引文使用过时参数coauthors 帮助 参见 编辑相关不蕴涵因果 相关系数 取自 https zh wikipedia org w index php title 相关 概率论 amp oldid 76988894, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。