fbpx
维基百科

辛普森悖论

辛普森悖论(英語:Simpson's paradox),是概率统计中的一种现象,其中趋势出现在几组数据中,但当这些组被合并后趋势消失或反转。 这个结果在社会科学和医学科学统计中经常遇到[1][2][3], 当频率数据被不恰当地给出因果解释时尤其成问题[4]。当干擾变量和因果关系在统计建模中得到适当处理时,这个悖论就可以得到解决[4][5]。 辛普森悖论已被用来说明統計誤用可能产生的误导性结果[6][7]

定量数据的辛普森悖论:两个独立的小组出现正的趋势( ,  ),而当小组合并时出现负的趋势( )。
辛普森悖论在类似于现实世界变异性的数据上的可视化表明,误判真实关系的风险可能难以发现。

该现象于20世纪初就有人讨论,但一直到1951年,爱德华·H·辛普森在他发表的论文中闡述此一現象後,该现象才算正式被描述解释。后来就以他的名字命名此悖论,即辛普森悖论。此悖論的最終原因和選擇偏差英语selection bias倖存者偏差、以及柏克森悖論英语Berkson's paradox一樣,是源自對撞因子

举例

一所美国高校的两个学院,分别是法学院和商学院。新学期招生,人们怀疑这两个学院有性别歧视。现作如下统计:

法学院

性别 录取 拒收 总数 录取比例
男生 8 45 53 15.1%
女生 51 101 152 33.6%
合计 59 146 205

商学院

性别 录取 拒收 总数 录取比例
男生 201 50 251 80.1%
女生 92 9 101 91.1%
合计 293 59 352

根据上面两个表格来看,女生在两个学院都被优先录取,即女生的录取比率较。现在将两学院的数据汇总:

性别 录取 拒收 总数 录取比例
男生 209 95 304 68.8%
女生 143 110 253 56.5%
合计 352 205 557

在总评中,女生的录取比率反而比男生

 
女生单独两个矢量斜率都比男生大,说明它们的比率都比较高。但最后男生总体向量斜率却大于女生

借助一幅向量图可以更好的了解情况(右图)

这个例子说明,简单的将分组数据相加汇总,是不能反映真实情况的。

就上述例子说,导致辛普森悖论有两个前提。

  1. 两个分组的录取率相差很大,就是说法学院录取率很低,而商学院却很高。而同时两种性别的申请者分布比重相反。女性申请者的大部分分布在法学院,相反,男性申请者大部分分布于商学院。结果在数量上来说,拒收率高的法学院拒收了很多的女生,男生虽然有更拒收率,但被拒收的数量却相对不算多。而录取率很高的商学院录取了很多男生,使得最后汇总的时候,男生在数量上反而占优。
  2. 潜在因素影响着录取情况。就是说,性别并非是录取率高低的唯一因素,甚至可能是毫无影响的。至于在学院中出现的比率差,可能是随机事件。又或者是其他因素作用,比如入学成绩,却刚好出现这种录取比例,使人误认为这是由性别差异而造成的。

为了避免辛普森悖论的出现,就需要斟酌各分组的权重,并乘以一定的系数去消除以分组数据基数差异而造成的影响。同时,我們必需清楚了解情况,以综合考虑是否存在造成此悖論的潜在因素。

相關條目

参考文献

Skript zur Statistik in der Naturwissenschaften(Gerhard Osius, Universität Bremen)

  1. ^ Clifford H. Wagner. Simpson's Paradox in Real Life. The American Statistician. February 1982, 36 (1): 46–48. JSTOR 2684093. doi:10.2307/2684093. 
  2. ^ Holt, G. B. (2016). Potential Simpson's paradox in multicenter study of intraperitoneal chemotherapy for ovarian cancer. (页面存档备份,存于互联网档案馆) Journal of Clinical Oncology, 34(9), 1016–1016.
  3. ^ Franks, Alexander; Airoldi, Edoardo; Slavov, Nikolai. Post-transcriptional regulation across human tissues. PLOS Computational Biology. 2017, 13 (5): e1005535. Bibcode:2017PLSCB..13E5535F. ISSN 1553-7358. PMC 5440056 . PMID 28481885. arXiv:1506.00219 . doi:10.1371/journal.pcbi.1005535. 
  4. ^ 4.0 4.1 Judea Pearl. Causality: Models, Reasoning, and Inference, Cambridge University Press (2000, 2nd edition 2009). ISBN 0-521-77362-8.
  5. ^ Kock, N., & Gaskins, L. (2016). Simpson's paradox, moderation and the emergence of quadratic relationships in path models: An information systems illustration. (页面存档备份,存于互联网档案馆) International Journal of Applied Nonlinear Science, 2(3), 200–234.
  6. ^ Robert L. Wardrop (February 1995). "Simpson's Paradox and the Hot Hand in Basketball". The American Statistician, 49 (1): pp. 24–28.
  7. ^ Alan Agresti (2002). "Categorical Data Analysis" (Second edition). John Wiley and Sons ISBN 0-471-36093-7

辛普森悖论, 此條目可参照英語維基百科相應條目来扩充, 2020年4月25日, 若您熟悉来源语言和主题, 请协助参考外语维基百科扩充条目, 请勿直接提交机械翻译, 也不要翻译不可靠, 低品质内容, 依版权协议, 译文需在编辑摘要注明来源, 或于讨论页顶部标记, href, template, translated, page, html, title, template, translated, page, translated, page, 标签, 英語, simpson, paradox, 是概率和统计中的一种. 此條目可参照英語維基百科相應條目来扩充 2020年4月25日 若您熟悉来源语言和主题 请协助参考外语维基百科扩充条目 请勿直接提交机械翻译 也不要翻译不可靠 低品质内容 依版权协议 译文需在编辑摘要注明来源 或于讨论页顶部标记 a href Template Translated page html title Template Translated page Translated page a 标签 辛普森悖论 英語 Simpson s paradox 是概率和统计中的一种现象 其中趋势出现在几组数据中 但当这些组被合并后趋势消失或反转 这个结果在社会科学和医学科学统计中经常遇到 1 2 3 当频率数据被不恰当地给出因果解释时尤其成问题 4 当干擾变量和因果关系在统计建模中得到适当处理时 这个悖论就可以得到解决 4 5 辛普森悖论已被用来说明統計誤用可能产生的误导性结果 6 7 定量数据的辛普森悖论 两个独立的小组出现正的趋势 而当小组合并时出现负的趋势 辛普森悖论在类似于现实世界变异性的数据上的可视化表明 误判真实关系的风险可能难以发现 该现象于20世纪初就有人讨论 但一直到1951年 爱德华 H 辛普森在他发表的论文中闡述此一現象後 该现象才算正式被描述解释 后来就以他的名字命名此悖论 即辛普森悖论 此悖論的最終原因和選擇偏差 英语 selection bias 倖存者偏差 以及柏克森悖論 英语 Berkson s paradox 一樣 是源自對撞因子 举例 编辑一所美国高校的两个学院 分别是法学院和商学院 新学期招生 人们怀疑这两个学院有性别歧视 现作如下统计 法学院 性别 录取 拒收 总数 录取比例男生 8 45 53 15 1 女生 51 101 152 33 6 合计 59 146 205商学院 性别 录取 拒收 总数 录取比例男生 201 50 251 80 1 女生 92 9 101 91 1 合计 293 59 352根据上面两个表格来看 女生在两个学院都被优先录取 即女生的录取比率较高 现在将两学院的数据汇总 性别 录取 拒收 总数 录取比例男生 209 95 304 68 8 女生 143 110 253 56 5 合计 352 205 557在总评中 女生的录取比率反而比男生低 女生单独两个矢量斜率都比男生大 说明它们的比率都比较高 但最后男生总体向量斜率却大于女生 借助一幅向量图可以更好的了解情况 右图 这个例子说明 简单的将分组数据相加汇总 是不能反映真实情况的 就上述例子说 导致辛普森悖论有两个前提 两个分组的录取率相差很大 就是说法学院录取率很低 而商学院却很高 而同时两种性别的申请者分布比重相反 女性申请者的大部分分布在法学院 相反 男性申请者大部分分布于商学院 结果在数量上来说 拒收率高的法学院拒收了很多的女生 男生虽然有更高的拒收率 但被拒收的数量却相对不算多 而录取率很高的商学院录取了很多男生 使得最后汇总的时候 男生在数量上反而占优 有潜在因素影响着录取情况 就是说 性别并非是录取率高低的唯一因素 甚至可能是毫无影响的 至于在学院中出现的比率差 可能是随机事件 又或者是其他因素作用 比如入学成绩 却刚好出现这种录取比例 使人误认为这是由性别差异而造成的 为了避免辛普森悖论的出现 就需要斟酌各分组的权重 并乘以一定的系数去消除以分组数据基数差异而造成的影响 同时 我們必需清楚了解情况 以综合考虑是否存在造成此悖論的潜在因素 相關條目 编辑區群謬誤参考文献 编辑Skript zur Statistik in der Naturwissenschaften Gerhard Osius Universitat Bremen Clifford H Wagner Simpson s Paradox in Real Life The American Statistician February 1982 36 1 46 48 JSTOR 2684093 doi 10 2307 2684093 Holt G B 2016 Potential Simpson s paradox in multicenter study of intraperitoneal chemotherapy for ovarian cancer 页面存档备份 存于互联网档案馆 Journal of Clinical Oncology 34 9 1016 1016 Franks Alexander Airoldi Edoardo Slavov Nikolai Post transcriptional regulation across human tissues PLOS Computational Biology 2017 13 5 e1005535 Bibcode 2017PLSCB 13E5535F ISSN 1553 7358 PMC 5440056 PMID 28481885 arXiv 1506 00219 doi 10 1371 journal pcbi 1005535 4 0 4 1 Judea Pearl Causality Models Reasoning and Inference Cambridge University Press 2000 2nd edition 2009 ISBN 0 521 77362 8 Kock N amp Gaskins L 2016 Simpson s paradox moderation and the emergence of quadratic relationships in path models An information systems illustration 页面存档备份 存于互联网档案馆 International Journal of Applied Nonlinear Science 2 3 200 234 Robert L Wardrop February 1995 Simpson s Paradox and the Hot Hand in Basketball The American Statistician 49 1 pp 24 28 Alan Agresti 2002 Categorical Data Analysis Second edition John Wiley and Sons ISBN 0 471 36093 7 取自 https zh wikipedia org w index php title 辛普森悖论 amp oldid 74274229, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。