fbpx
维基百科

p值

p[註 1]假设检验中假设零假设为真时观测到的至少与实际观测样本英语Realization (probability)相同的样本的概率。[2][3]很小的p值说明在零假设下观测到的概率很小。学术出版物中常常报告假设检验p值。p值由于其确切意义难以掌握而屡遭误用英语misuse of p-values;对p值的误用是元科学的主要课题。[4][5]

简介 编辑

p值(p value)就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果p值很小,说明在原假设下极端观测结果的发生概率很小。而如果出现了,根据小概率原理,就有理由拒绝原假设;p值越小,拒绝原假设的理由越充分[3]

对于一个统计模型的参数空间 ,把参数空间划分为两个不相交的集合  ,然后给定的随机样本 ,想检验参数在哪一个划分的空间

 

构造的拒绝域是 对于一个可以探测参数 的统计量 ,定义拒绝域为该统计量大于阈值 的形式:

 

那么,一个拥有拒绝域是 的假设检验方法,则该检验的统计功效函数被定义为

 

一个检验的检验水准(size)是犯第一类错误概率的上确界 。我们称一个检验具有显著性水平 ,如果它的检验水准小于等于 ,即

 

假定对于所有小数 ,存在一个显著性水平为 的检验,其拒绝域是 ,那么p值的数学定义是满足包含关系 的最小 

 

也就是说p值是被定义为拒绝零假设 的最低显著性水平

p值是基于数据的检验统计量算出来的概率值。如果p值是5%,也就是说,如果以此为界拒绝原假设的话,那么只有5%的可能性犯错。原假设是对的,但却拒绝了,这是错误的。所以说p值越大,拒绝原假设的理由越不充分。如果p值接近于0,拒绝原假设,那么几乎不可能犯错,于是说明数据是极其不符合原假设。

换言之,p值是假說檢定零假设成立或表现更严重的可能性。p值若与选定显著性水平(0.05或0.01)相比更小,则虛無假設会被否定而不可接受。然而这并不直接表明原假设正确。通常在连续分布的假设下,p值是一个服从[0,1]区间均匀分布随机变量,在实际使用中因样本等各种因素存在不确定性。近100年来,统计学家使用p值来描述数据的统计显著性,这种方法造成了许多人在工作中把统计显著性的阈值(事先给定值)强行假定为大于等于实际显著性(实际数据计算出的p值),于是强行拒绝原假设,做出了很多不科学的决策。p值产生的结果可能会带来争议[6]。2018年,由72位科学家组成的小组在《自然·人类行为》上发表了一篇名为《重新定义统计意义》的评论文章,赞同将统计显著性的阈值从0.05调整到0.005。这样就使得科研人员不能强行让如此小的统计显著性阈值大于实际数据计算出来的p值。这篇文章的主要作者本杰明认为:“这是一个不完美的短期解决方案,但可以立即实施。我担心的是,如果我们不立即做这事,我们将失去变革的动力,而我们最终将花费所有的时间争论理想化的解决方案。”

在科学研究的许多领域,p值小于0.05被认为是确定实验数据可靠性的金标准。这个标准支持了大多数已发表的科学结论,违反这一标准的论文很难发表,而且也很难得到学术机构的资助。然而,即使是费雪也明白,统计显著性的概念以及支撑它的p值具有相当大的局限性。几十年来,科学家也逐渐意识到了这些局限性。

历史 编辑

p值的计算可以追溯到18世纪,当时计算的是人类出生性别比,并与男女出生概率相同的零假设相比的统计学差异[7]约翰·阿布斯诺特于1710年研究了这一问题[8][9][10][11],并检查了伦敦从1629年到1710年的82年中每一年的出生记录。阿布斯诺特观察到每一年在伦敦出生的男婴数都超过了女婴数。考虑到零假设是男性或女性出生概率相同,这一观察结果出现的概率是1/282,或约为4,836,000,000,000,000,000分之1;这个计算得到的值,用现代术语说,就是P值。这个数字小得惊人,使阿布斯诺特认为这一结果的出现不是由于几率,而是由于神的旨意。“由此可见,支配一切的是艺术,而不是几率”。用现代术语来说,他在p=1/282的显著性水平上拒绝了男女出生可能性相同的零假设。

1925年,英国遗传学家兼统计学家羅納德·愛爾默·費雪出版了《研究者的统计方法》(Statistical Methods for Research Workers)一书。这本书的书名在当时看起来并不会“畅销”,但实际上这本书却取得了巨大的成功,而且还使费雪成为现代统计学之父。在这本书中,他着眼于研究人员如何将统计检验理论应用于实际数据,以便基于数据得出他们所发现的结论。当使用某个统计假设来做检验时,该检验能够概述数据与其假设的模型之间的兼容性,并生成一个p值。 费雪建议,作为一个方便的指南,研究人员可以考虑将p值设为0.05。对于这一点,他专门论述道:“在判断某个偏差是否应该被认为是显著的时候,将这一阈值作为判断标准是很方便的。”他还建议,p值低于该阈值的结论是可靠的,因此不要把时间花在大于该阈值的统计结论上。因此,费雪的这一建议诞生了p小于0.05等价于所谓的统计显著性,这成了 “显著”的数学定义。

注释 编辑

  1. ^ p值是否采用斜体、大写、连字符在各文献格式中有所不同。AMA格式英语AMA style使用"P value";APA格式使用"p value";美国统计协会使用"p-value".[1]


参考资料 编辑

  1. ^ 存档副本 (PDF). [2021-02-01]. (原始内容 (PDF)于2017-10-10). 
  2. ^ Aschwanden, Christie. Not Even Scientists Can Easily Explain P-values. FiveThirtyEight. 2015-11-24 [11 October 2019]. (原始内容于2019-09-25). 
  3. ^ 3.0 3.1 Wasserstein, Ronald L.; Lazar, Nicole A. The ASA's Statement on p-Values: Context, Process, and Purpose. The American Statistician. 7 March 2016, 70 (2): 129–133 [2021-02-01]. doi:10.1080/00031305.2016.1154108 . (原始内容于2019-06-30). 
  4. ^ Hubbard, Raymond; Lindsay, R. Murray. Why P Values Are Not a Useful Measure of Evidence in Statistical Significance Testing. Theory & Psychology. 2008, 18 (1): 69–88. doi:10.1177/0959354307086923. 
  5. ^ Ioannidis, John P. A.; et al. A manifesto for reproducible science (PDF). Nature Human Behaviour. January 2017, 1: 0021 [2021-02-01]. S2CID 6326747. doi:10.1038/s41562-016-0021. (原始内容 (PDF)于2019-09-24) (英语). 
  6. ^ Denworth Lydia,张慧铭(译). P值危机:统计学需要一场变革 (PDF). 环球科学. 2019, 21 [2020-02-17]. (原始内容 (PDF)于2020-02-17). 
  7. ^ Brian, Éric; Jaisson, Marie. Physico-Theology and Mathematics (1710–1794). The Descent of Human Sex Ratio at Birth. Springer Science & Business Media. 2007: 1–25. ISBN 978-1-4020-6036-6. 
  8. ^ John Arbuthnot. (PDF). Philosophical Transactions of the Royal Society of London. 1710, 27 (325–336): 186–190 [2021-09-30]. S2CID 186209819. doi:10.1098/rstl.1710.0011 . (原始内容 (PDF)存档于2021-06-03). 
  9. ^ Conover, W.J., Chapter 3.4: The Sign Test, Practical Nonparametric Statistics Third, Wiley: 157–176, 1999, ISBN 978-0-471-16068-7 
  10. ^ Sprent, P., Applied Nonparametric Statistical Methods Second, Chapman & Hall, 1989, ISBN 978-0-412-44980-2 
  11. ^ Stigler, Stephen M. The History of Statistics: The Measurement of Uncertainty Before 1900. Harvard University Press. 1986: 225–226. ISBN 978-0-67440341-3. 

p值, 此條目可参照英語維基百科相應條目来扩充, 若您熟悉来源语言和主题, 请协助参考外语维基百科扩充条目, 请勿直接提交机械翻译, 也不要翻译不可靠, 低品质内容, 依版权协议, 译文需在编辑摘要注明来源, 或于讨论页顶部标记, href, template, translated, page, html, title, template, translated, page, translated, page, 标签, 為假设检验中假设零假设为真时观测到的至少与实际观测样本, 英语, realization, p. 此條目可参照英語維基百科相應條目来扩充 若您熟悉来源语言和主题 请协助参考外语维基百科扩充条目 请勿直接提交机械翻译 也不要翻译不可靠 低品质内容 依版权协议 译文需在编辑摘要注明来源 或于讨论页顶部标记 a href Template Translated page html title Template Translated page Translated page a 标签 p值 註 1 為假设检验中假设零假设为真时观测到的至少与实际观测样本 英语 Realization probability 相同的样本的概率 2 3 很小的p值说明在零假设下观测到的概率很小 学术出版物中常常报告假设检验的p值 p值由于其确切意义难以掌握而屡遭误用 英语 misuse of p values 对p值的误用是元科学的主要课题 4 5 目录 1 简介 2 历史 3 注释 4 参考资料简介 编辑p值 p value 就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率 如果p值很小 说明在原假设下极端观测结果的发生概率很小 而如果出现了 根据小概率原理 就有理由拒绝原假设 p值越小 拒绝原假设的理由越充分 3 对于一个统计模型的参数空间8 displaystyle Theta nbsp 把参数空间划分为两个不相交的集合8 0 displaystyle Theta 0 nbsp 和8 1 displaystyle Theta 1 nbsp 然后给定的随机样本X X 1 X n displaystyle X X 1 cdots X n nbsp 想检验参数在哪一个划分的空间 H 0 8 8 0 versus H 1 8 8 1 displaystyle H 0 theta in Theta 0 quad text versus quad H 1 theta in Theta 1 nbsp 构造的拒绝域是 对于一个可以探测参数8 displaystyle theta nbsp 的统计量T X displaystyle T X nbsp 定义拒绝域为该统计量大于阈值c displaystyle c nbsp 的形式 R T X T X gt c displaystyle R T X T X gt c nbsp 那么 一个拥有拒绝域是R T displaystyle R T nbsp 的假设检验方法 则该检验的统计功效函数被定义为 b T 8 P 8 X R T displaystyle beta T theta mathbb P theta X in R T nbsp 一个检验的检验水准 size 是犯第一类错误概率的上确界a sup 8 8 0 b T 8 displaystyle alpha sup theta in Theta 0 beta T theta nbsp 我们称一个检验具有显著性水平a 0 displaystyle alpha 0 nbsp 如果它的检验水准小于等于a 0 displaystyle alpha 0 nbsp 即 a sup 8 8 0 b T 8 a 0 displaystyle alpha sup theta in Theta 0 beta T theta leq alpha 0 nbsp 假定对于所有小数a 0 0 1 displaystyle alpha 0 in 0 1 nbsp 存在一个显著性水平为a 0 displaystyle alpha 0 nbsp 的检验 其拒绝域是R a 0 T displaystyle R alpha 0 T nbsp 那么p值的数学定义是满足包含关系X R a 0 T displaystyle X in R alpha 0 T nbsp 的最小a 0 displaystyle alpha 0 nbsp p value inf a 0 X R a 0 T a 0 displaystyle text p value inf left alpha 0 X in R alpha 0 T right leq alpha 0 nbsp 也就是说p值是被定义为拒绝零假设H 0 displaystyle H 0 nbsp 的最低显著性水平 p值是基于数据的检验统计量算出来的概率值 如果p值是5 也就是说 如果以此为界拒绝原假设的话 那么只有5 的可能性犯错 原假设是对的 但却拒绝了 这是错误的 所以说p值越大 拒绝原假设的理由越不充分 如果p值接近于0 拒绝原假设 那么几乎不可能犯错 于是说明数据是极其不符合原假设 换言之 p值是假說檢定中零假设成立或表现更严重的可能性 p值若与选定显著性水平 0 05或0 01 相比更小 则虛無假設会被否定而不可接受 然而这并不直接表明原假设正确 通常在连续分布的假设下 p值是一个服从 0 1 区间均匀分布的随机变量 在实际使用中因样本等各种因素存在不确定性 近100年来 统计学家使用p值来描述数据的统计显著性 这种方法造成了许多人在工作中把统计显著性的阈值 事先给定值 强行假定为大于等于实际显著性 实际数据计算出的p值 于是强行拒绝原假设 做出了很多不科学的决策 p值产生的结果可能会带来争议 6 2018年 由72位科学家组成的小组在 自然 人类行为 上发表了一篇名为 重新定义统计意义 的评论文章 赞同将统计显著性的阈值从0 05调整到0 005 这样就使得科研人员不能强行让如此小的统计显著性阈值大于实际数据计算出来的p值 这篇文章的主要作者本杰明认为 这是一个不完美的短期解决方案 但可以立即实施 我担心的是 如果我们不立即做这事 我们将失去变革的动力 而我们最终将花费所有的时间争论理想化的解决方案 在科学研究的许多领域 p值小于0 05被认为是确定实验数据可靠性的金标准 这个标准支持了大多数已发表的科学结论 违反这一标准的论文很难发表 而且也很难得到学术机构的资助 然而 即使是费雪也明白 统计显著性的概念以及支撑它的p值具有相当大的局限性 几十年来 科学家也逐渐意识到了这些局限性 历史 编辑p值的计算可以追溯到18世纪 当时计算的是人类出生性别比 并与男女出生概率相同的零假设相比的统计学差异 7 约翰 阿布斯诺特于1710年研究了这一问题 8 9 10 11 并检查了伦敦从1629年到1710年的82年中每一年的出生记录 阿布斯诺特观察到每一年在伦敦出生的男婴数都超过了女婴数 考虑到零假设是男性或女性出生概率相同 这一观察结果出现的概率是1 282 或约为4 836 000 000 000 000 000分之1 这个计算得到的值 用现代术语说 就是P值 这个数字小得惊人 使阿布斯诺特认为这一结果的出现不是由于几率 而是由于神的旨意 由此可见 支配一切的是艺术 而不是几率 用现代术语来说 他在p 1 282的显著性水平上拒绝了男女出生可能性相同的零假设 1925年 英国遗传学家兼统计学家羅納德 愛爾默 費雪出版了 研究者的统计方法 Statistical Methods for Research Workers 一书 这本书的书名在当时看起来并不会 畅销 但实际上这本书却取得了巨大的成功 而且还使费雪成为现代统计学之父 在这本书中 他着眼于研究人员如何将统计检验理论应用于实际数据 以便基于数据得出他们所发现的结论 当使用某个统计假设来做检验时 该检验能够概述数据与其假设的模型之间的兼容性 并生成一个p值 费雪建议 作为一个方便的指南 研究人员可以考虑将p值设为0 05 对于这一点 他专门论述道 在判断某个偏差是否应该被认为是显著的时候 将这一阈值作为判断标准是很方便的 他还建议 p值低于该阈值的结论是可靠的 因此不要把时间花在大于该阈值的统计结论上 因此 费雪的这一建议诞生了p小于0 05等价于所谓的统计显著性 这成了 显著 的数学定义 注释 编辑 p值是否采用斜体 大写 连字符在各文献格式中有所不同 AMA格式 英语 AMA style 使用 P value APA格式使用 p value 美国统计协会使用 p value 1 参考资料 编辑 存档副本 PDF 2021 02 01 原始内容存档 PDF 于2017 10 10 Aschwanden Christie Not Even Scientists Can Easily Explain P values FiveThirtyEight 2015 11 24 11 October 2019 原始内容存档于2019 09 25 3 0 3 1 Wasserstein Ronald L Lazar Nicole A The ASA s Statement on p Values Context Process and Purpose The American Statistician 7 March 2016 70 2 129 133 2021 02 01 doi 10 1080 00031305 2016 1154108 nbsp 原始内容存档于2019 06 30 Hubbard Raymond Lindsay R Murray Why P Values Are Not a Useful Measure of Evidence in Statistical Significance Testing Theory amp Psychology 2008 18 1 69 88 doi 10 1177 0959354307086923 Ioannidis John P A et al A manifesto for reproducible science PDF Nature Human Behaviour January 2017 1 0021 2021 02 01 S2CID 6326747 doi 10 1038 s41562 016 0021 原始内容存档 PDF 于2019 09 24 英语 Denworth Lydia 张慧铭 译 P值危机 统计学需要一场变革 PDF 环球科学 2019 21 2020 02 17 原始内容存档 PDF 于2020 02 17 Brian Eric Jaisson Marie Physico Theology and Mathematics 1710 1794 The Descent of Human Sex Ratio at Birth Springer Science amp Business Media 2007 1 25 ISBN 978 1 4020 6036 6 John Arbuthnot An argument for Divine Providence taken from the constant regularity observed in the births of both sexes PDF Philosophical Transactions of the Royal Society of London 1710 27 325 336 186 190 2021 09 30 S2CID 186209819 doi 10 1098 rstl 1710 0011 nbsp 原始内容 PDF 存档于2021 06 03 Conover W J Chapter 3 4 The Sign Test Practical Nonparametric Statistics Third Wiley 157 176 1999 ISBN 978 0 471 16068 7 Sprent P Applied Nonparametric Statistical Methods Second Chapman amp Hall 1989 ISBN 978 0 412 44980 2 Stigler Stephen M The History of Statistics The Measurement of Uncertainty Before 1900 Harvard University Press 1986 225 226 ISBN 978 0 67440341 3 取自 https zh wikipedia org w index php title P值 amp oldid 79906106, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。