fbpx
维基百科

负二项分布

負二項分布(Negative binomial distribution)是統計學上一種描述在一系列独立同分布的伯努利试验中,成功次数达到指定次数(记为r)时失败次数的離散概率分布。比如,如果我们定义掷骰子随机变量x值为x=1时成功,所有x≠1为失败,这时我们反复掷骰子直到1出现3次(成功次数r=3),此时非1数字出现次数的概率分布即为负二项分布。

负二项分布
不同來源對负二项分布的定義略有差異:隨機變量的最小可能取值可能是(僅計失敗的次數,或反之),亦可能是(總次數,不論成敗);參數可能表示每次試驗成功的概率,也可能表示失敗的概率;試驗的終止條件可能是成功次或失敗次。[1]
概率质量函數
参数 ()
(實)
值域
概率质量函数
累積分布函數
期望值
眾數
方差
偏度
峰度
矩生成函数
特徵函数

帕斯卡分布Pascal distribution,来自布莱兹·帕斯卡 (Blaise Pascal))和波利亚分布Polya distribution,又称罐子模型,来自喬治·波利亞 (George Pólya))均是负二项分布的特例。在工程、气候等领域中经常用“负二项分布”或“帕斯卡分布”来描述变量r为整数的情况,而使用“波利亚分布”来描述r取到实数值R的情况。

对于“相关的离散事件”("associated discrete events")的发生,例如龙卷风爆发,相比于泊松分布,波利亚分布由于允许其平均值方差不同,而能够给出更精确的模型。在流行病学中,它已被用于模拟传染病的疾病传播,其中可能的继发感染数量可能因个体和环境而异[2]。 更一般地说,由于正协方差项,事件具有正相关的事件导致比独立事件更大的方差可能是合适的。

“负二项分布”与“二项分布”的区别在于:“二项分布”是固定试验总次数N的独立试验中,成功次数k的分布;而“负二项分布”是所有到r次成功时即终止的独立试验中,失败次数k的分布。

术语“负二项式”可能是因为出现在分布的概率质量函数公式中的某个二项式系数可以用负数更简单地写出[3]

定义

若每次伯努利试验有两种可能的结果,分别为成功或者失败。在每次试验中,成功的概率为p,失败的概率为(1-p)。反复进行该伯努利试验,直到观察到第r次成功发生。此时试验失败次数 的分布即为负二项分布(或称帕斯卡分布),那么:

若随机变量 服从参数为  的负二项分布,则记为 .

在实际生活中,我们可以使用负二项分布描述某种机器在坏掉前,能够工作的天数的分布。此时,“成功”的事件可以指机器正常工作一天,“失败”的事件可以指机器故障的一天。如果我们使用负二项分布来描述运动员在获取r个奖牌前尝试的次数的分布,此时,“失败”的事件指运动员的一次尝试,“成功”的事件指运动员获取一枚奖牌。如果使用负二项分布来描述掷一枚硬币出现r次正面前,出现硬币反面的次数的分布,“成功”的事件指出现硬币的正面,“失败”的事件指出现硬币的反面。

概率质量函数

帕斯卡分布

 是整數時的負二項分布又稱帕斯卡分布,其概率質量函數為:

 

其中k是失败的次数,r是成功的次数,p是事件成功的概率。在负二项分布的概率质量函数中,由于k+r次伯努利试验为独立同分布,每个成功r次、失败k次的事件的概率为(1 − p)kpr。由于第r次成功一定是最后一次试验,所以应该在k+r-1次试验中选择r-1次成功,使用排列组合二项系数获取所有可能的选择数。

二项系数与负二项名称来源

括号中为二项式系数表达式:

 

该表达式可以写成带负值参数的二项系数的形式,如下式所示,解释了“负二项”名称的来源:

 

概率质量函数对所有可能k值求和为1

帕斯卡分布概率质量函数f(k;r,p)对所有可能k值求和,一定等于1:

 

证明如下:

 

其中第三步用到了二项序列展开。

几何分布

 ,負二項分布等於幾何分布。其概率質量函數為 

例子

舉例說,若我們擲骰子,擲到一即視為成功。則每次擲骰的成功率是1/6。要擲出三次一,所需的擲骰次數屬於集合{ 3, 4, 5, 6, ... }。擲到三次一的擲骰次數是負二項分布的隨機變數。要在第三次擲骰時,擲到第三次一,則之前兩次都要擲到一,其機率為 。注意擲骰是伯努利試驗,之前的結果不影響隨後的結果。

若要在第四次擲骰時,擲到第三次一,則之前三次之中要有剛好兩次擲到一,在三次擲骰中擲到2次1的機率為 。第四次擲骰要擲到一,所以要將前面的機率再乘(1/6): 

相关分布

几何分布(在 { 0, 1, 2, 3, ... } 上)是负二项分布的一个特例,其中

 
  • 负二项分布是离散相型分布英语Discrete phase-type distribution的一个特例。
  • 负二项分布是离散复合泊松分布的一个特例。

參見

参考文献

  1. ^ DeGroot, Morris H. Probability and Statistics Second. Addison-Wesley. 1986: 258–259. ISBN 0-201-11366-X. LCCN 84006269. OCLC 10605205. 
  2. ^ e.g. J.O. Lloyd-Smith, S.J. Schreiber, P.E. Kopp, and W.M. Getz (2005), Superspreading and the effect of individual variation on disease emergence, Nature, 438, 355–359. doi:10.1038/nature04153
    The overdispersion parameter is usually denoted by the letter   in epidemiology, rather than   as here.
  3. ^ Casella, George; Berger, Roger L. Statistical inference  2nd. Thomson Learning. 2002: 95. ISBN 0-534-24312-6. 

负二项分布, 負二項分布, negative, binomial, distribution, 是統計學上一種描述在一系列独立同分布的伯努利试验中, 成功次数达到指定次数, 记为r, 时失败次数的離散概率分布, 比如, 如果我们定义掷骰子随机变量x值为x, 1时成功, 所有x, 1为失败, 这时我们反复掷骰子直到1出现3次, 成功次数r, 此时非1数字出现次数的概率分布即为, 不同來源對的定義略有差異, 隨機變量的最小可能取值可能是k, displaystyle, 僅計失敗的次數, 或反之, 亦可能是k, disp. 負二項分布 Negative binomial distribution 是統計學上一種描述在一系列独立同分布的伯努利试验中 成功次数达到指定次数 记为r 时失败次数的離散概率分布 比如 如果我们定义掷骰子随机变量x值为x 1时成功 所有x 1为失败 这时我们反复掷骰子直到1出现3次 成功次数r 3 此时非1数字出现次数的概率分布即为负二项分布 负二项分布不同來源對负二项分布的定義略有差異 隨機變量的最小可能取值可能是k 0 displaystyle k 0 僅計失敗的次數 或反之 亦可能是k r displaystyle k r 總次數 不論成敗 參數p displaystyle p 可能表示每次試驗成功的概率 也可能表示失敗的概率 試驗的終止條件可能是成功r displaystyle r 次或失敗r displaystyle r 次 1 概率质量函數 紅線是平均值 綠線是標準差参数r gt 0 displaystyle r gt 0 實 0 lt p lt 1 displaystyle 0 lt p lt 1 實 值域k 0 1 2 displaystyle k in 0 1 2 ldots 概率质量函数G r k k G r p r 1 p k displaystyle frac Gamma r k k Gamma r p r 1 p k 累積分布函數I p r k 1 displaystyle I p r k 1 期望值r 1 p p displaystyle r frac 1 p p 眾數 r 1 1 p p if r gt 1 displaystyle lfloor r 1 1 p p rfloor text if r gt 1 0 if r 1 displaystyle 0 text if r leq 1 方差r 1 p p 2 displaystyle r frac 1 p p 2 偏度2 p r 1 p displaystyle frac 2 p sqrt r 1 p 峰度6 r p 2 r 1 p displaystyle frac 6 r frac p 2 r 1 p 矩生成函数 p 1 1 p e t r displaystyle left frac p 1 1 p e t right r 特徵函数 p 1 1 p e i t r displaystyle left frac p 1 1 p e i t right r 帕斯卡分布 Pascal distribution 来自布莱兹 帕斯卡 Blaise Pascal 和波利亚分布 Polya distribution 又称罐子模型 来自喬治 波利亞 George Polya 均是负二项分布的特例 在工程 气候等领域中经常用 负二项分布 或 帕斯卡分布 来描述变量r为整数的情况 而使用 波利亚分布 来描述r取到实数值R的情况 对于 相关的离散事件 associated discrete events 的发生 例如龙卷风爆发 相比于泊松分布 波利亚分布由于允许其平均值和方差不同 而能够给出更精确的模型 在流行病学中 它已被用于模拟传染病的疾病传播 其中可能的继发感染数量可能因个体和环境而异 2 更一般地说 由于正协方差项 事件具有正相关的事件导致比独立事件更大的方差可能是合适的 负二项分布 与 二项分布 的区别在于 二项分布 是固定试验总次数N的独立试验中 成功次数k的分布 而 负二项分布 是所有到r次成功时即终止的独立试验中 失败次数k的分布 术语 负二项式 可能是因为出现在分布的概率质量函数公式中的某个二项式系数可以用负数更简单地写出 3 目录 1 定义 2 概率质量函数 2 1 帕斯卡分布 2 1 1 二项系数与负二项名称来源 2 1 2 概率质量函数对所有可能k值求和为1 2 2 几何分布 2 3 例子 3 相关分布 4 參見 5 参考文献定义 编辑若每次伯努利试验有两种可能的结果 分别为成功或者失败 在每次试验中 成功的概率为p 失败的概率为 1 p 反复进行该伯努利试验 直到观察到第r次成功发生 此时试验失败次数X displaystyle X 的分布即为负二项分布 或称帕斯卡分布 那么 若随机变量X displaystyle mathit X 服从参数为r displaystyle mathit r 和p displaystyle mathit p 的负二项分布 则记为X N B r p displaystyle X sim NB r p 在实际生活中 我们可以使用负二项分布描述某种机器在坏掉前 能够工作的天数的分布 此时 成功 的事件可以指机器正常工作一天 失败 的事件可以指机器故障的一天 如果我们使用负二项分布来描述运动员在获取r个奖牌前尝试的次数的分布 此时 失败 的事件指运动员的一次尝试 成功 的事件指运动员获取一枚奖牌 如果使用负二项分布来描述掷一枚硬币出现r次正面前 出现硬币反面的次数的分布 成功 的事件指出现硬币的正面 失败 的事件指出现硬币的反面 概率质量函数 编辑帕斯卡分布 编辑 當r displaystyle r 是整數時的負二項分布又稱帕斯卡分布 其概率質量函數為 f k r p Pr X k k r 1 r 1 p r 1 p k for k 0 1 2 displaystyle f k r p equiv Pr X k binom k r 1 r 1 p r 1 p k quad text for k 0 1 2 dotsc 其中k是失败的次数 r是成功的次数 p是事件成功的概率 在负二项分布的概率质量函数中 由于k r次伯努利试验为独立同分布 每个成功r次 失败k次的事件的概率为 1 p kpr 由于第r次成功一定是最后一次试验 所以应该在k r 1次试验中选择r 1次成功 使用排列组合二项系数获取所有可能的选择数 二项系数与负二项名称来源 编辑 括号中为二项式系数表达式 k r 1 r 1 k r 1 k r 1 k r 1 k r 2 r k displaystyle binom k r 1 r 1 frac k r 1 k r 1 frac k r 1 k r 2 dotsm r k 该表达式可以写成带负值参数的二项系数的形式 如下式所示 解释了 负二项 名称的来源 k r 1 r k 1 k r r 1 r 2 r k 1 k 1 k r k displaystyle begin aligned amp frac k r 1 dotsm r k 6pt amp 1 k frac r r 1 r 2 dotsm r k 1 k 1 k binom r k end aligned 概率质量函数对所有可能k值求和为1 编辑 帕斯卡分布概率质量函数f k r p 对所有可能k值求和 一定等于1 k 0 k r 1 k p r q k 1 displaystyle sum k 0 infty binom k r 1 k p r q k 1 证明如下 1 p r p r p r 1 q r p r k 0 r k q k p r k 0 1 k r k q k k 0 k r 1 k p r q k displaystyle 1 p r p r p r 1 q r p r sum k 0 infty binom r k q k p r sum k 0 infty 1 k binom r k q k sum k 0 infty binom k r 1 k p r q k 其中第三步用到了二项序列展开 几何分布 编辑 取r 1 displaystyle r 1 負二項分布等於幾何分布 其概率質量函數為f k 1 p p 1 p k displaystyle f k 1 p p cdot 1 p k 例子 编辑 舉例說 若我們擲骰子 擲到一即視為成功 則每次擲骰的成功率是1 6 要擲出三次一 所需的擲骰次數屬於集合 3 4 5 6 擲到三次一的擲骰次數是負二項分布的隨機變數 要在第三次擲骰時 擲到第三次一 則之前兩次都要擲到一 其機率為 1 6 3 displaystyle 1 6 3 注意擲骰是伯努利試驗 之前的結果不影響隨後的結果 若要在第四次擲骰時 擲到第三次一 則之前三次之中要有剛好兩次擲到一 在三次擲骰中擲到2次1的機率為 3 3 1 5 6 1 6 2 displaystyle 3 choose 3 1 left 5 over 6 right left 1 over 6 right 2 第四次擲骰要擲到一 所以要將前面的機率再乘 1 6 1 3 1 3 1 1 6 3 5 6 displaystyle 1 3 1 choose 3 1 left 1 over 6 right 3 left 5 over 6 right 相关分布 编辑几何分布 在 0 1 2 3 上 是负二项分布的一个特例 其中 Geom p NB 1 1 p displaystyle operatorname Geom p operatorname NB 1 1 p dd 负二项分布是离散相型分布 英语 Discrete phase type distribution 的一个特例 负二项分布是离散复合泊松分布的一个特例 參見 编辑二項式分布 幾何分布参考文献 编辑 DeGroot Morris H Probability and Statistics Second Addison Wesley 1986 258 259 ISBN 0 201 11366 X LCCN 84006269 OCLC 10605205 e g J O Lloyd Smith S J Schreiber P E Kopp and W M Getz 2005 Superspreading and the effect of individual variation on disease emergence Nature 438 355 359 doi 10 1038 nature04153The overdispersion parameter is usually denoted by the letter k displaystyle k in epidemiology rather than r displaystyle r as here Casella George Berger Roger L Statistical inference 2nd Thomson Learning 2002 95 ISBN 0 534 24312 6 取自 https zh wikipedia org w index php title 负二项分布 amp oldid 74718765, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。