fbpx
维基百科

皮爾森卡方檢定

皮爾森卡方檢定(英語:Pearson's chi-squared test)是最有名卡方檢定之一(其他常用的卡方檢定還有葉氏連續校正英语Yates's correction for continuity似然比檢定英语Likelihood-ratio test一元混成检验英语Portmanteau test等等--它們的統計值之機率分配都近似於卡方分配,故稱卡方檢定)。「皮爾森卡方檢定」最早由卡爾·皮爾森在1900年發表,[1] 用於類別變數的檢定。科學文獻中,當提及卡方檢定而沒有特別指明類型時,通常即指皮爾森卡方檢定。

原假設

「皮爾森卡方檢定」的虛無假設(H0)是:一個樣本中已發生事件的次數分配會遵守某個特定的理論分配。

在虛無假設的句子中,「事件」必須互斥,並且所有事件總機率等於1。或者說,每個事件是類別變數(英語:categorical variable)的一種類別或級別(英語:level)。

簡單的例子:常見的六面骰子,事件=丟骰子的結果(可能是1~6任一個)屬於類別變數,每一面都是此變數的一種(一個級別)結果,每種結果互斥(1不是2, 3, 4, 5, 6; 2不是1, 3, 4 ...),六面的機率總和等於1。

用途和步驟

「皮爾森卡方檢定」可用於兩種情境的變項比較:適配度檢定英语Goodness of Fit test獨立性檢定

  • 「適配度檢定」驗證一組觀察值的次數分配是否異於理論上的分配。
  • 「獨立性檢定」驗證從兩個變數抽出的配對觀察值組是否互相獨立(例如:每次都從A國和B國各抽一個人,看他們的反應是否與國籍無關)。

不管哪個檢定都包含三個步驟:

  1. 計算卡方檢定的統計值「   」:把每一個觀察值和理論值的差做平方後、除以理論值、再加總。
  2. 計算   統計值的自由度 」。
  3. 依據研究者設定的置信水平(顯著性水平P值或對應Alpah值),查出自由度為   的卡方分配臨界值,比較它與第1步驟得出的   統計值,推論能否拒絕虛無假說

適合度檢定

適配度檢定(英語:Goodness of Fit test):測試樣本的機率分配母體有多相似。

母體假設為離散型均勻分配

當理論上的母體分配為每個類別機率一致時,即應適用離散型均勻分配的計算方法。   個觀察值於理論上應均勻分配在所有的   個欄位(類別)中,因此每個欄位(類別)的「理論次數」(或期望次數)為:

 ,其中  

自由度   。「 」是總共要計算離差平方的個數(每個類別計算一次觀察值與理論值的差,再平方)。「 」是因為對於計算 而言只有一個限制條件:觀察值的個數總和為  

母體假設為其他種分配

貝氏算法

例子

獨立性檢定

在同一個個體(例如:同一個人)身上有兩個二元變數(X, Y),例如 X(男/女)和 Y(右撇子/左撇子),觀察兩個變數的相關性。虛無假設是:兩個變數呈統計獨立性。在本例中:性別與慣用手是獨立事件。

  • 首先,每個觀察值(每個抽出的人)會被重新編排到一個叫做「列聯表」(英語:contingency table,又稱:條件次數表)的二維表格裡。本例的列聯表是2×2的構造(不算入Total欄位):
總計
43 44 87
9 4 13
總計 52 48 100
  • 如果列聯表共有 r 行 c 列,那麽在獨立事件的假設下,每個欄位的「理論次數」(或期望次數)為:
 
其中 N 是樣本大小(觀察值的個數,亦即2×2列聯表所有欄位的總和,本例:N = 100)。本例的各欄位期望值如下(括號裡的數字):
總計
43 (45.24) 44 (41.76) 87
9 (6.76) 4 (6.24) 13
總計 52 48 100
  •  統計值的公式是:
 
本例的 統計值是:
 
  • 自由度   是這樣得出:雖然總共要計算   個離差平方(每個欄位計算一次觀察值與理論值的差,再平方),但 X 變數有1個限制條件(樣本抽出後,男性的人數即固定),Y 變數也有1個限制條件(樣本抽出後,右撇子的人數即固定),所以可自由變動的欄位數只有  
在本例中 
  •   的條件下,得出卡方分配右尾機率  ,無法拒絕虛無假設,亦即:無法拒絕性別變數與慣用手變數互相獨立的假設

限制

  1. 如果個別欄位的期望次數太低,會使機率分配無法近似於卡方分配。一般要求:自由度  時,期望次數小於5的欄位不多於總欄位的20%。
  2. 若自由度  ,且若期望次數   ,則近似於卡方分配的假設不可信。此時可以將每個觀察值的離差減去   之後再做平方,這便是葉慈連續校正英语Yates's correction for continuity

参考文献

引用

  1. ^ Karl Pearson. X. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling. The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science: 157–175. doi:10.1080/14786440009463897. 

期刊文章

  • Herman Chernoff, E. L. Lehmann. The Use of Maximum Likelihood Estimates in $\chi^2$ Tests for Goodness of Fit. The Annals of Mathematical Statistics. 1954-09, 25 (3): 579–586 [2018-04-02]. ISSN 0003-4851. doi:10.1214/aoms/1177728726. (原始内容于2021-02-26) (英语). 
  • R. L. Plackett. Karl Pearson and the Chi-Squared Test. International Statistical Review / Revue Internationale de Statistique. 1983, 51 (1): 59–72 [2018-04-02]. doi:10.2307/1402731. (原始内容于2021-04-16). 

书籍

  • Nikulin, Priscilla E. Greenwood ; Mikhail S. A guide to chi-squared testing. New York, NY [u.a.]: Wiley. 1996. ISBN 047155779X. 

皮爾森卡方檢定, 此條目可参照英語維基百科相應條目来扩充, 若您熟悉来源语言和主题, 请协助参考外语维基百科扩充条目, 请勿直接提交机械翻译, 也不要翻译不可靠, 低品质内容, 依版权协议, 译文需在编辑摘要注明来源, 或于讨论页顶部标记, href, template, translated, page, html, title, template, translated, page, translated, page, 标签, 英語, pearson, squared, test, 是最有名卡方檢定之一, 其他. 此條目可参照英語維基百科相應條目来扩充 若您熟悉来源语言和主题 请协助参考外语维基百科扩充条目 请勿直接提交机械翻译 也不要翻译不可靠 低品质内容 依版权协议 译文需在编辑摘要注明来源 或于讨论页顶部标记 a href Template Translated page html title Template Translated page Translated page a 标签 皮爾森卡方檢定 英語 Pearson s chi squared test 是最有名卡方檢定之一 其他常用的卡方檢定還有葉氏連續校正 英语 Yates s correction for continuity 似然比檢定 英语 Likelihood ratio test 一元混成检验 英语 Portmanteau test 等等 它們的統計值之機率分配都近似於卡方分配 故稱卡方檢定 皮爾森卡方檢定 最早由卡爾 皮爾森在1900年發表 1 用於類別變數的檢定 科學文獻中 當提及卡方檢定而沒有特別指明類型時 通常即指皮爾森卡方檢定 目录 1 原假設 2 用途和步驟 3 適合度檢定 3 1 母體假設為離散型均勻分配 3 2 母體假設為其他種分配 3 3 貝氏算法 3 4 例子 4 獨立性檢定 5 限制 6 参考文献 6 1 引用 6 2 期刊文章 6 3 书籍原假設 编辑 皮爾森卡方檢定 的虛無假設 H0 是 一個樣本中已發生事件的次數分配會遵守某個特定的理論分配 在虛無假設的句子中 事件 必須互斥 並且所有事件總機率等於1 或者說 每個事件是類別變數 英語 categorical variable 的一種類別或級別 英語 level 簡單的例子 常見的六面骰子 事件 丟骰子的結果 可能是1 6任一個 屬於類別變數 每一面都是此變數的一種 一個級別 結果 每種結果互斥 1不是2 3 4 5 6 2不是1 3 4 六面的機率總和等於1 用途和步驟 编辑 皮爾森卡方檢定 可用於兩種情境的變項比較 適配度檢定 英语 Goodness of Fit test 和獨立性檢定 適配度檢定 驗證一組觀察值的次數分配是否異於理論上的分配 獨立性檢定 驗證從兩個變數抽出的配對觀察值組是否互相獨立 例如 每次都從A國和B國各抽一個人 看他們的反應是否與國籍無關 不管哪個檢定都包含三個步驟 計算卡方檢定的統計值 x 2 displaystyle chi 2 把每一個觀察值和理論值的差做平方後 除以理論值 再加總 計算 x 2 displaystyle chi 2 統計值的自由度 d f displaystyle df 依據研究者設定的置信水平 顯著性水平 P值或對應Alpah值 查出自由度為 d f displaystyle df 的卡方分配臨界值 比較它與第1步驟得出的 x 2 displaystyle chi 2 統計值 推論能否拒絕虛無假說 適合度檢定 编辑適配度檢定 英語 Goodness of Fit test 測試樣本的機率分配與母體有多相似 母體假設為離散型均勻分配 编辑 當理論上的母體分配為每個類別機率一致時 即應適用離散型均勻分配的計算方法 N displaystyle N 個觀察值於理論上應均勻分配在所有的 m displaystyle m 個欄位 類別 中 因此每個欄位 類別 的 理論次數 或期望次數 為 E i N m displaystyle E i frac N m 其中 i 1 2 m displaystyle i 1 2 m 自由度 d f m 1 displaystyle df m 1 m displaystyle m 是總共要計算離差平方的個數 每個類別計算一次觀察值與理論值的差 再平方 1 displaystyle 1 是因為對於計算x 2 displaystyle chi 2 而言只有一個限制條件 觀察值的個數總和為 N displaystyle N 母體假設為其他種分配 编辑 貝氏算法 编辑 例子 编辑獨立性檢定 编辑在同一個個體 例如 同一個人 身上有兩個二元變數 X Y 例如 X 男 女 和 Y 右撇子 左撇子 觀察兩個變數的相關性 虛無假設是 兩個變數呈統計獨立性 在本例中 性別與慣用手是獨立事件 首先 每個觀察值 每個抽出的人 會被重新編排到一個叫做 列聯表 英語 contingency table 又稱 條件次數表 的二維表格裡 本例的列聯表是2 2的構造 不算入Total欄位 男 女 總計右 43 44 87左 9 4 13總計 52 48 100 如果列聯表共有 r 行 c 列 那麽在獨立事件的假設下 每個欄位的 理論次數 或期望次數 為 E i j n c 1 c O i n c n r 1 r O n r j N displaystyle E i j frac left sum n c 1 c O i n c right cdot left sum n r 1 r O n r j right N 其中 N 是樣本大小 觀察值的個數 亦即2 2列聯表所有欄位的總和 本例 N 100 本例的各欄位期望值如下 括號裡的數字 dd 男 女 總計右 43 45 24 44 41 76 87左 9 6 76 4 6 24 13總計 52 48 100 x 2 displaystyle chi 2 統計值的公式是 x 2 i 1 r j 1 c O i j E i j 2 E i j displaystyle chi 2 sum i 1 r sum j 1 c O i j E i j 2 over E i j dd 本例的x 2 displaystyle chi 2 統計值是 x 2 43 45 24 2 45 24 44 41 76 2 41 76 9 6 76 2 6 76 4 6 24 2 6 24 1 777 displaystyle chi 2 43 45 24 2 45 24 44 41 76 2 41 76 9 6 76 2 6 76 4 6 24 2 6 24 1 777 dd 自由度 d f r 1 c 1 displaystyle df r 1 c 1 是這樣得出 雖然總共要計算 r c displaystyle rc 個離差平方 每個欄位計算一次觀察值與理論值的差 再平方 但 X 變數有1個限制條件 樣本抽出後 男性的人數即固定 Y 變數也有1個限制條件 樣本抽出後 右撇子的人數即固定 所以可自由變動的欄位數只有 r 1 c 1 displaystyle r 1 c 1 在本例中d f 2 1 2 1 1 displaystyle df 2 1 times 2 1 1 在x 2 1 777 d f 1 displaystyle chi 2 1 777 df 1 的條件下 得出卡方分配右尾機率p 0 1825 displaystyle p 0 1825 無法拒絕虛無假設 亦即 無法拒絕性別變數與慣用手變數互相獨立的假設 限制 编辑如果個別欄位的期望次數太低 會使機率分配無法近似於卡方分配 一般要求 自由度 d f gt 1 displaystyle df gt 1 時 期望次數小於5的欄位不多於總欄位的20 若自由度 d f 1 displaystyle df 1 且若期望次數 lt 10 displaystyle lt 10 則近似於卡方分配的假設不可信 此時可以將每個觀察值的離差減去 0 5 displaystyle 0 5 之後再做平方 這便是葉慈連續校正 英语 Yates s correction for continuity 参考文献 编辑引用 编辑 Karl Pearson X On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling The London Edinburgh and Dublin Philosophical Magazine and Journal of Science 157 175 doi 10 1080 14786440009463897 卡方分配與卡方檢定 页面存档备份 存于互联网档案馆 期刊文章 编辑 Herman Chernoff E L Lehmann The Use of Maximum Likelihood Estimates in chi 2 Tests for Goodness of Fit The Annals of Mathematical Statistics 1954 09 25 3 579 586 2018 04 02 ISSN 0003 4851 doi 10 1214 aoms 1177728726 原始内容存档于2021 02 26 英语 R L Plackett Karl Pearson and the Chi Squared Test International Statistical Review Revue Internationale de Statistique 1983 51 1 59 72 2018 04 02 doi 10 2307 1402731 原始内容存档于2021 04 16 书籍 编辑 Nikulin Priscilla E Greenwood Mikhail S A guide to chi squared testing New York NY u a Wiley 1996 ISBN 047155779X 取自 https zh wikipedia org w index php title 皮爾森卡方檢定 amp oldid 75232386, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。