fbpx
维基百科

贝叶斯定理

貝葉斯定理(英語:Bayes' theorem)是概率論中的一個定理,描述在已知一些条件下,某事件的发生機率。比如,如果已知某種健康問題与寿命有关,使用贝叶斯定理则可以通过得知某人年龄,来更加准确地计算出某人有某種健康問題的機率。

通常,事件A在事件B已發生的條件下发生的機率,與事件B在事件A已發生的條件下发生的機率是不一樣的。然而,這兩者是有確定的關係的,貝葉斯定理就是這種關係的陳述。貝葉斯公式的一個用途,即透過已知的三個機率而推出第四個機率。贝叶斯定理跟隨機變量條件機率以及邊際機率分布有關。

作為一個普遍的原理,貝葉斯定理對於所有機率的解釋是有效的。这一定理的主要应用为贝叶斯推断,是推论统计学中的一种推断法。这一定理名稱來自於托马斯·贝叶斯

陈述

 
贝叶斯定理的二维可视化图像,图中阐释了事件A、事件B以及他们之间的关系。

贝叶斯定理是关于随机事件A和B的条件概率的一則定理。

 

其中 以及 隨機事件,且 不為零。 是指在事件 发生的情况下事件 发生的概率。

在贝叶斯定理中,每个名词都有约定俗成的名称:

  •  是已知 發生后, 條件概率。也稱作 事後概率
  •   先驗概率(或边缘概率)。其不考慮任何 方面的因素。
  •  是已知 發生后, 的條件概率。也可稱爲 的事後機率。某些文獻又称其为在特定 時, 似然性,因爲 
  •   先驗概率

按這些術語,贝叶斯定理可表述為:

后验概率 = (似然性*先驗概率)/標準化常量

也就是說,后验概率与先驗概率和相似度的乘積成正比。

另外,比例 也有時被稱作標准似然度(standardised likelihood),贝叶斯定理可表述為:

后验概率 = 標準似然度*先驗概率
由贝叶斯公式 可以看出,这里面的   是一个随机变量(因为   有概率   )。因为  ,所以这也是贝叶斯估计和极大似然估计的区别所在,极大似然估计中要估计的参数是个一般变量,而贝叶斯估计中要估计的参数是个随机变量。

從條件概率推導貝氏定理

根據條件概率的定義。在事件B发生的条件下事件A发生的概率是[1]

 

其中 AB的联合概率表示为 或者 或者 

同樣地,在事件A发生的条件下事件B发生的概率

 

整理与合并這兩個方程式,我們可以得到

 

这个引理有时称作概率乘法规则。上式兩邊同除以P(B),若P(B)是非零的,我們可以得到贝叶斯定理:

 

二中擇一的形式

貝氏定理通常可以再寫成下面的形式:

 

其中AC是A的補集(即非A)。故上式亦可寫成:

 

在更一般化的情況,假設{Ai}是事件集合裡的部份集合,對於任意的Ai,貝氏定理可用下式表示:

 

以可能性與相似率表示貝氏定理

貝氏定理亦可由相似率Λ和可能性O表示:

 

其中

 

定義為B發生時,A發生的可能性(odds);

 

則是A發生的可能性。相似率(Likelihood ratio)則定義為:

 

貝氏定理與概率密度

貝氏定理亦可用於連續機率分佈。由於概率密度函数嚴格上並非機率,由機率密度函數導出貝氏定理觀念上較為困難(詳細推導參閱[2])。貝氏定理與機率密度的關係是由求極限的方式建立:

 

全機率定理則有類似的論述:

 

如同離散的情況,公式中的每項均有名稱。 f(x, y)是XY的聯合分佈; fx|y)是給定Y=y後,X的事後分佈; fy|x)= Lx|y)是Y=y後,X的相似度函數(為x的函數); fx)和fy)則是XY的邊際分佈; fx)則是X的事前分佈。 為了方便起見,這裡的f在這些專有名詞中代表不同的函數(可以由引數的不同判斷之)。

貝氏定理的推廣

對於變數有二個以上的情況,貝氏定理亦成立。例如:

 

這個式子可以由套用多次二個變數的貝氏定理及條件機率的定義導出:

 
 

一般化的方法則是利用聯合機率去分解待求的條件機率,並對不加以探討的變數積分(意即對欲探討的變數計算邊緣機率)。取決於不同的分解形式,可以證明某些積分必為1,因此分解形式可被簡化。利用這個性質,貝氏定理的計算量可能可以大幅下降。貝氏網路為此方法的一個例子,貝氏網路指定數個變數的聯合機率分佈的分解型式,該機率分佈滿足下述條件:當其他變數的條件機率給定時,該變數的條件機率為一簡單型式。

範例

吸毒者检测

下面展示贝叶斯定理在检测吸毒者时的应用。假设一个常规的检测结果的靈敏度和特異度均为99%,即吸毒者每次检测呈阳性(+)的概率为99%。而不吸毒者每次检测呈阴性(-)的概率为99%。从检测结果的概率来看,检测结果是比较准确的,但是贝叶斯定理卻可以揭示一个潜在的问题。假设某公司对全体雇员进行吸毒检测,已知0.5%的雇员吸毒。请问每位检测结果呈阳性的雇员吸毒的概率有多高?

令“D”为雇员吸毒事件,“N”为雇员不吸毒事件,“+”为检测呈阳性事件。可得

  • P(D)代表雇员吸毒的概率,不考虑其他情况,该值为0.005。因为公司的预先统计表明该公司的雇员中有0.5%的人吸食毒品,所以这个值就是D的先验概率
  • P(N)代表雇员不吸毒的概率,显然,该值为0.995,也就是1-P(D)。
  • P(+|D)代表吸毒者被驗出為阳性的概率,这是一个条件概率,由于阳性检测准确性是99%,因此该值为0.99。
  • P(+|N)代表不吸毒者被驗出為阳性的概率,也就是出错检测的概率,该值为0.01。因为对于不吸毒者,其检测为阴性的概率为99%,因此,其被误检测成阳性的概率为1 - 0.99 = 0.01。
  • P(+)代表不考虑其他因素的影响的阳性检出率,白話來說,即該公司有多少比例的檢測結果為陽性。该值为0.0149或者1.49%。我们可以通过全概率公式计算得到:此概率 = 身爲吸毒者的概率 x 吸毒被驗出陽性的概率(0.5% x 99% = 0.495%) + 身爲不吸毒者的概率 x 不吸毒卻被驗出陽性的概率(99.5% x 1% = 0.995%)。P(+)=0.0149是检测呈阳性的先验概率。用数学公式描述为:
 

根据上述描述,我们可以计算某人检测呈阳性时确实吸毒的条件概率P(D|+):

 

尽管吸毒检测的准确率高达99%,但贝叶斯定理告诉我们:如果某人检测呈阳性,其吸毒的概率只有大约33%,不吸毒的可能性比较大。假阳性高,则检测的结果不可靠。這是因爲該公司不吸毒的人數遠遠大於吸毒人數,所以即使不吸毒者被誤檢為陽性的概率僅爲1%,其實際被誤檢人數還是很龐大。舉例來說,若該公司總共有1000人(其中5人吸毒,995人不吸),不吸毒的人被檢測出陽性的人數有大約10人(1% x 995),而吸毒被驗出陽性的人數有5人(99% x 5),總共15人被驗出陽性(10 + 5)。在這15人裏面,只有約33%的人是真正有吸毒。所以貝氏定理可以揭露出此檢測在這個案例中的不可靠。

同時,也因爲不可靠的主因是不吸毒卻被誤檢陽性的人數遠多於吸毒被檢測出來的人數(上述例子中10人 > 5 人),所以即使陽性檢測靈敏度能到100%(即只要吸毒一定驗出陽性),檢測結果陽性的員工,真正吸毒的概率 也只會提高到約33.4%。但如果靈敏度仍然是99%,而特異度卻提高到99.5%(即不吸毒的人中,約0.5%會被誤檢為陽性),則檢測結果陽性的員工,真正吸毒的概率可以提高到49.9%。

胰腺癌检测

基于贝叶斯定理:即使100%的胰腺癌症患者都有某症状,而某人有同样的症状,绝对不代表该人有100%的概率得胰腺癌,还需要考虑先验概率,假设胰腺癌的发病率是十万分之一,而全球有同样症状的人有万分之一,则此人得胰腺癌的概率只有十分之一,90%的可能是是假阳性。

不良种子检测

基于贝叶斯定理:假设100%的不良种子都表现A性状,而种子表现A性状,并不代表此种子100%是不良种子,还需要考虑先验概率,假设一共有6万颗不良种子,在种子中的比例是十万分之一(假設总共有60亿颗种子),假设所有种子中有1/3表现A性状(即20亿颗种子表现A性状),则此种子为不良种子的概率只有十万分之三。

参见

參考文獻

  1. ^ Kenneth H. Rosen. Discrete Mathematics and its Applications 7th edition. 2012: 456. ISBN 978-0-07-338309-5 (英语). 
  2. ^ Papoulis A.(1984). Probability, Random Variables, and Stochastic Processes, 2nd edition. Section 7.3. New York: McGraw-Hill.

外部連結

  • 数学之美番外篇:平凡而又神奇的贝叶斯方法(页面存档备份,存于互联网档案馆

贝叶斯定理, 此條目需要补充更多来源, 2015年7月16日, 请协助補充多方面可靠来源以改善这篇条目, 无法查证的内容可能會因為异议提出而移除, 致使用者, 请搜索一下条目的标题, 来源搜索, 网页, 新闻, 书籍, 学术, 图像, 以检查网络上是否存在该主题的更多可靠来源, 判定指引, 貝葉斯定理, 英語, bayes, theorem, 是概率論中的一個定理, 描述在已知一些条件下, 某事件的发生機率, 比如, 如果已知某種健康問題与寿命有关, 使用则可以通过得知某人年龄, 来更加准确地计算出某人有某種健康問. 此條目需要补充更多来源 2015年7月16日 请协助補充多方面可靠来源以改善这篇条目 无法查证的内容可能會因為异议提出而移除 致使用者 请搜索一下条目的标题 来源搜索 贝叶斯定理 网页 新闻 书籍 学术 图像 以检查网络上是否存在该主题的更多可靠来源 判定指引 貝葉斯定理 英語 Bayes theorem 是概率論中的一個定理 描述在已知一些条件下 某事件的发生機率 比如 如果已知某種健康問題与寿命有关 使用贝叶斯定理则可以通过得知某人年龄 来更加准确地计算出某人有某種健康問題的機率 通常 事件A在事件B已發生的條件下发生的機率 與事件B在事件A已發生的條件下发生的機率是不一樣的 然而 這兩者是有確定的關係的 貝葉斯定理就是這種關係的陳述 貝葉斯公式的一個用途 即透過已知的三個機率而推出第四個機率 贝叶斯定理跟隨機變量的條件機率以及邊際機率分布有關 作為一個普遍的原理 貝葉斯定理對於所有機率的解釋是有效的 这一定理的主要应用为贝叶斯推断 是推论统计学中的一种推断法 这一定理名稱來自於托马斯 贝叶斯 目录 1 陈述 2 從條件概率推導貝氏定理 3 二中擇一的形式 3 1 以可能性與相似率表示貝氏定理 3 2 貝氏定理與概率密度 3 3 貝氏定理的推廣 4 範例 4 1 吸毒者检测 4 2 胰腺癌检测 4 3 不良种子检测 5 参见 6 參考文獻 7 外部連結陈述 编辑 贝叶斯定理的二维可视化图像 图中阐释了事件A 事件B以及他们之间的关系 贝叶斯定理是关于随机事件A和B的条件概率的一則定理 P A B P A P B A P B displaystyle P A mid B frac P A P B mid A P B 其中A displaystyle A 以及B displaystyle B 為隨機事件 且P B displaystyle P B 不為零 P A B displaystyle P A mid B 是指在事件B displaystyle B 发生的情况下事件A displaystyle A 发生的概率 在贝叶斯定理中 每个名词都有约定俗成的名称 P A B displaystyle P A mid B 是已知B displaystyle B 發生后 A displaystyle A 的條件概率 也稱作A displaystyle A 的事後概率 P A displaystyle P A 是A displaystyle A 的先驗概率 或边缘概率 其不考慮任何B displaystyle B 方面的因素 P B A displaystyle P B mid A 是已知A displaystyle A 發生后 B displaystyle B 的條件概率 也可稱爲B displaystyle B 的事後機率 某些文獻又称其为在特定B displaystyle B 時 A displaystyle A 的似然性 因爲P B A L A B displaystyle P B mid A L A mid B P B displaystyle P B 是B displaystyle B 的先驗概率 按這些術語 贝叶斯定理可表述為 后验概率 似然性 先驗概率 標準化常量也就是說 后验概率与先驗概率和相似度的乘積成正比 另外 比例P B A P B displaystyle P B A P B 也有時被稱作標准似然度 standardised likelihood 贝叶斯定理可表述為 后验概率 標準似然度 先驗概率 由贝叶斯公式P 8 X P 8 P X 8 P X P 8 P X 8 displaystyle P theta X frac P theta P X theta P X propto P theta P X theta 可以看出 这里面的 8 displaystyle theta 是一个随机变量 因为 8 displaystyle theta 有概率 P 8 displaystyle P theta 因为P 8 X P 8 P X 8 displaystyle P theta X propto P theta P X theta 所以这也是贝叶斯估计和极大似然估计的区别所在 极大似然估计中要估计的参数是个一般变量 而贝叶斯估计中要估计的参数是个随机变量 從條件概率推導貝氏定理 编辑根據條件概率的定義 在事件B发生的条件下事件A发生的概率是 1 P A B P A B P B displaystyle P A B frac P A cap B P B 其中 A与B的联合概率表示为P A B displaystyle P A cap B 或者P A B displaystyle P A B 或者P A B displaystyle P AB 同樣地 在事件A发生的条件下事件B发生的概率 P B A P A B P A displaystyle P B A frac P A cap B P A 整理与合并這兩個方程式 我們可以得到 P A B P B P A B P B A P A displaystyle P A B P B P A cap B P B A P A 这个引理有时称作概率乘法规则 上式兩邊同除以P B 若P B 是非零的 我們可以得到贝叶斯定理 P A B P B A P A P B displaystyle P A B frac P B A P A P B 二中擇一的形式 编辑貝氏定理通常可以再寫成下面的形式 P B P A B P A C B P B A P A P B A C P A C displaystyle P B P A cap B P A C cap B P B A P A P B A C P A C 其中AC是A的補集 即非A 故上式亦可寫成 P A B P B A P A P B A P A P B A C P A C displaystyle P A B frac P B A P A P B A P A P B A C P A C 在更一般化的情況 假設 Ai 是事件集合裡的部份集合 對於任意的Ai 貝氏定理可用下式表示 P A i B P B A i P A i j P B A j P A j displaystyle P A i B frac P B A i P A i sum j P B A j P A j 以可能性與相似率表示貝氏定理 编辑 参见 全概率公式 貝氏定理亦可由相似率L和可能性O表示 O A B O A L A B displaystyle O A B O A cdot Lambda A B 其中 O A B P A B P A C B displaystyle O A B frac P A B P A C B 定義為B發生時 A發生的可能性 odds O A P A P A C displaystyle O A frac P A P A C 則是A發生的可能性 相似率 Likelihood ratio 則定義為 L A B L A B L A C B P B A P B A C displaystyle Lambda A B frac L A B L A C B frac P B A P B A C 貝氏定理與概率密度 编辑 貝氏定理亦可用於連續機率分佈 由於概率密度函数嚴格上並非機率 由機率密度函數導出貝氏定理觀念上較為困難 詳細推導參閱 2 貝氏定理與機率密度的關係是由求極限的方式建立 f x y f x y f y f y x f x f y displaystyle f x y frac f x y f y frac f y x f x f y 全機率定理則有類似的論述 f x y f y x f x f y x f x d x displaystyle f x y frac f y x f x int infty infty f y x f x dx 如同離散的情況 公式中的每項均有名稱 f x y 是X和Y的聯合分佈 f x y 是給定Y y後 X的事後分佈 f y x L x y 是Y y後 X的相似度函數 為x的函數 f x 和f y 則是X和Y的邊際分佈 f x 則是X的事前分佈 為了方便起見 這裡的f在這些專有名詞中代表不同的函數 可以由引數的不同判斷之 貝氏定理的推廣 编辑 對於變數有二個以上的情況 貝氏定理亦成立 例如 P A B C P A P B A P C A B P B P C B displaystyle P A B C frac P A P B A P C A B P B P C B 這個式子可以由套用多次二個變數的貝氏定理及條件機率的定義導出 P A B C P A B C P B C P A B C P B P C B displaystyle P A B C frac P A B C P B C frac P A B C P B P C B P C A B P A B P B P C B P A P B A P C A B P B P C B displaystyle frac P C A B P A B P B P C B frac P A P B A P C A B P B P C B 一般化的方法則是利用聯合機率去分解待求的條件機率 並對不加以探討的變數積分 意即對欲探討的變數計算邊緣機率 取決於不同的分解形式 可以證明某些積分必為1 因此分解形式可被簡化 利用這個性質 貝氏定理的計算量可能可以大幅下降 貝氏網路為此方法的一個例子 貝氏網路指定數個變數的聯合機率分佈的分解型式 該機率分佈滿足下述條件 當其他變數的條件機率給定時 該變數的條件機率為一簡單型式 範例 编辑吸毒者检测 编辑 下面展示贝叶斯定理在检测吸毒者时的应用 假设一个常规的检测结果的靈敏度和特異度均为99 即吸毒者每次检测呈阳性 的概率为99 而不吸毒者每次检测呈阴性 的概率为99 从检测结果的概率来看 检测结果是比较准确的 但是贝叶斯定理卻可以揭示一个潜在的问题 假设某公司对全体雇员进行吸毒检测 已知0 5 的雇员吸毒 请问每位检测结果呈阳性的雇员吸毒的概率有多高 令 D 为雇员吸毒事件 N 为雇员不吸毒事件 为检测呈阳性事件 可得 P D 代表雇员吸毒的概率 不考虑其他情况 该值为0 005 因为公司的预先统计表明该公司的雇员中有0 5 的人吸食毒品 所以这个值就是D的先验概率 P N 代表雇员不吸毒的概率 显然 该值为0 995 也就是1 P D P D 代表吸毒者被驗出為阳性的概率 这是一个条件概率 由于阳性检测准确性是99 因此该值为0 99 P N 代表不吸毒者被驗出為阳性的概率 也就是出错检测的概率 该值为0 01 因为对于不吸毒者 其检测为阴性的概率为99 因此 其被误检测成阳性的概率为1 0 99 0 01 P 代表不考虑其他因素的影响的阳性检出率 白話來說 即該公司有多少比例的檢測結果為陽性 该值为0 0149或者1 49 我们可以通过全概率公式计算得到 此概率 身爲吸毒者的概率 x 吸毒被驗出陽性的概率 0 5 x 99 0 495 身爲不吸毒者的概率 x 不吸毒卻被驗出陽性的概率 99 5 x 1 0 995 P 0 0149是检测呈阳性的先验概率 用数学公式描述为 P P D P N P D P D P N P N displaystyle P P cap D P cap N P D P D P N P N 根据上述描述 我们可以计算某人检测呈阳性时确实吸毒的条件概率P D P D P D P D P P D P D P D P D P N P N 0 99 0 005 0 99 0 005 0 01 0 995 0 3322 displaystyle begin aligned P D amp frac P D P D P amp frac P D P D P D P D P N P N amp frac 0 99 times 0 005 0 99 times 0 005 0 01 times 0 995 amp 0 3322 end aligned 尽管吸毒检测的准确率高达99 但贝叶斯定理告诉我们 如果某人检测呈阳性 其吸毒的概率只有大约33 不吸毒的可能性比较大 假阳性高 则检测的结果不可靠 這是因爲該公司不吸毒的人數遠遠大於吸毒人數 所以即使不吸毒者被誤檢為陽性的概率僅爲1 其實際被誤檢人數還是很龐大 舉例來說 若該公司總共有1000人 其中5人吸毒 995人不吸 不吸毒的人被檢測出陽性的人數有大約10人 1 x 995 而吸毒被驗出陽性的人數有5人 99 x 5 總共15人被驗出陽性 10 5 在這15人裏面 只有約33 的人是真正有吸毒 所以貝氏定理可以揭露出此檢測在這個案例中的不可靠 同時 也因爲不可靠的主因是不吸毒卻被誤檢陽性的人數遠多於吸毒被檢測出來的人數 上述例子中10人 gt 5 人 所以即使陽性檢測靈敏度能到100 即只要吸毒一定驗出陽性 檢測結果陽性的員工 真正吸毒的概率P D displaystyle P D 也只會提高到約33 4 但如果靈敏度仍然是99 而特異度卻提高到99 5 即不吸毒的人中 約0 5 會被誤檢為陽性 則檢測結果陽性的員工 真正吸毒的概率可以提高到49 9 胰腺癌检测 编辑 基于贝叶斯定理 即使100 的胰腺癌症患者都有某症状 而某人有同样的症状 绝对不代表该人有100 的概率得胰腺癌 还需要考虑先验概率 假设胰腺癌的发病率是十万分之一 而全球有同样症状的人有万分之一 则此人得胰腺癌的概率只有十分之一 90 的可能是是假阳性 不良种子检测 编辑 基于贝叶斯定理 假设100 的不良种子都表现A性状 而种子表现A性状 并不代表此种子100 是不良种子 还需要考虑先验概率 假设一共有6万颗不良种子 在种子中的比例是十万分之一 假設总共有60亿颗种子 假设所有种子中有1 3表现A性状 即20亿颗种子表现A性状 则此种子为不良种子的概率只有十万分之三 参见 编辑概率论 贝叶斯概率 贝叶斯推理參考文獻 编辑 Kenneth H Rosen Discrete Mathematics and its Applications 7th edition 2012 456 ISBN 978 0 07 338309 5 英语 引文格式1维护 冗余文本 link Papoulis A 1984 Probability Random Variables and Stochastic Processes 2nd edition Section 7 3 New York McGraw Hill 外部連結 编辑数学之美番外篇 平凡而又神奇的贝叶斯方法 页面存档备份 存于互联网档案馆 取自 https zh wikipedia org w index php title 贝叶斯定理 amp oldid 74307155, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。