fbpx
维基百科

正态分布

正态分布(香港作正態分佈,台湾作常態分布,英語:Normal distribution),又名高斯分佈(英語:Gaussian distribution)、正規分佈,是一個非常常見的連續機率分布。常態分布在统计学上十分重要,經常用在自然社会科学來代表一個不明的隨機變量。[1][2]

常態分布
概率密度函數

紅線代表標準常態分布
累積分布函數

顏色與機率密度函數同
参数 数学期望(实数)
方差(实数)
值域
概率密度函数
累積分布函數
期望值
中位數
眾數
方差
偏度 0
峰度 0
矩生成函数
特徵函数

隨機變數服從一個位置參數為、尺度參數為的常態分布,記為:

[3]

則其機率密度函數[3]

常態分布的數學期望值或期望值等於位置參數,決定了分布的位置;其方差的開平方或標準差等於尺度參數,決定了分布的幅度。

中心极限定理指出,在特定条件下,一个具有有限均值方差随机变量的多个样本(观察值)的平均值本身就是一个随机变量,其分布随着样本数量的增加而收敛于正态分布。因此,许多与独立过程总和有关的物理量,例如测量误差,通常可被近似为正态分布。

常態分布的機率密度函數曲線呈鐘形,因此人們又經常稱之為鐘形曲線(类似于寺庙里的大钟,因此得名)。我們通常所說的標準常態分布是位置參數,尺度參數的常態分布[3](見右圖中紅色曲線)。

概要

正態分布是自然科學行為科學中的定量現象的一個方便模型。各種各樣的心理學測試分數和物理現象比如光子計數都被發現近似地服從常態分布。儘管這些現象的根本原因經常是未知的,理論上可以證明如果把許多小作用加起來看做一個變量,那麼這個變量服從常態分布(在R.N.Bracewell的Fourier transform and its application中可以找到一種簡單的證明)。常態分布出現在許多區域統計:例如,採樣分布均值是近似地常態的,即使被採樣的樣本的原始群體分布並不服從常態分布。另外,常態分布信息熵在所有的已知均值及方差的分布中最大,這使得它作為一種均值以及方差已知的分布的自然選擇。常態分布是在統計以及許多統計測試中最廣泛應用的一類分布。在概率論,常態分布是幾種連續以及離散分布的極限分布。

歷史

常態分布最早是棣莫弗在1718年著作的書籍的(Doctrine of Change),及1734年發表的一篇關於二項分布文章中提出的,當二項隨機變數的位置參數n很大及形狀參數p為1/2時,則所推導出二項分布的近似分布函數就是常態分布。拉普拉斯在1812年发表的《分析概率论》(Theorie Analytique des Probabilites)中對棣莫佛的結論作了擴展到二項分布的位置參數為n及形狀參數為1>p>0時。現在这一结论通常被稱為棣莫佛-拉普拉斯定理

拉普拉斯在誤差分析試驗中使用了常態分布。勒讓德於1805年引入最小二乘法這一重要方法;而高斯則宣稱他早在1794年就使用了該方法,並通過假設誤差服從常態分布給出了嚴格的證明。

将正态分布称作「鐘形曲線」的习惯可以追溯到Jouffret他在1872年首次提出這個術語(Bell curve)用來指代二元常態分布。正态分布這個名字還被查爾斯·皮爾士法蘭西斯·高爾頓威爾赫姆·萊克希斯在1875分别獨立地使用。這個術語是不幸的,因為它反映和鼓勵了一種謬誤,即很多概率分布都是常態的。(請參考下面的「實例」)

這個分布被稱為「常態」或者「高斯」正好是史蒂格勒名字由來法則的一個例子,這個法則說「沒有科學發現是以它最初的發現者命名的」。

正态分布的定義

有幾種不同的方法用來說明一個隨機變量。最直觀的方法是概率密度函數,這種方法能夠表示隨機變量每個取值有多大的可能性。累積分布函數是一種概率上更加清楚的方法,請看下邊的例子。還有一些其他的等價方法,例如cumulant、特徵函數動差生成函數以及cumulant-生成函數。這些方法中有一些對於理論工作非常有用,但是不夠直觀。請參考關於概率分布的討論。

機率密度函數

 
四个不同参数集的概率密度函数(紅色线代表标准正态分布)

常態分布概率密度函數均值為  方差  (或標準差 )是高斯函數的一個實例:

 

(請看指數函數以及 .)

如果一個隨機變量 服從這個分布,我們寫作   ~  . 如果 並且 ,這個分布被稱為標準正态分布,這個分布能夠簡化為

 

右邊是給出了不同參數的正态分布的函數圖。

正态分布中一些值得注意的量:

  • 密度函數關於平均值對稱
  • 平均值與它的眾數(statistical mode)以及中位數(median)同一數值。
  • 函數曲線下68.268949%的面積在平均數左右的一個標準差範圍內。
  • 95.449974%的面積在平均數左右兩個標準差 的範圍內。
  • 99.730020%的面積在平均數左右三個標準差 的範圍內。
  • 99.993666%的面積在平均數左右四個標準差 的範圍內。
  • 函數曲線的拐點(inflection point)為離平均數一個標準差距離的位置。

累積分布函數

 
上图所示的機率密度函数的累積分布函數

累積分布函數是指隨機變數 小於或等於 的機率,用機率密度函數表示為

 

常態分布的累積分布函数能够由一個叫做误差函数特殊函数表示:

 

標準常態分布的累積分布函數習慣上記為 ,它僅僅是指  的值,

 

將一般常態分布用誤差函數表示的公式简化,可得:

 

它的反函數被稱為反誤差函數,為:

 

該分位數函數有時也被稱為probit函數。probit函數已被證明沒有初等原函数。

常態分布的分布函數 沒有解析表達式,它的值可以通過數值積分泰勒級數或者漸進序列近似得到。

生成函數

動差母函數

動差生成函數,或稱動差母函數被定義為 的期望值。

常態分布的動差產生函數如下:


   
 
 

可以通過在指數函數內配平方得到。

特徵函數

特徵函數被定義為 期望值,其中 是虛數單位. 對於一個常态分布來講,特徵函數是:

   
 
 

把矩生成函數中的 換成 就能得到特徵函數。

性質

常態分布的一些性質:

  1. 如果   實數,那麼  (參見期望值方差).
  2. 如果  統計獨立的常態隨機變量,那麼:
    • 它們的和也滿足常態分布  (proof英语sum of normally distributed random variables).
    • 它們的差也滿足常態分布 .
    •   兩者是相互獨立的。(要求X与Y的方差相等)
  3. 如果  是獨立常態隨機變量,那麼:
    • 它們的積 服從機率密度函數為 的分布
       其中 是修正貝塞爾函數(modified Bessel function)
    • 它們的比符合柯西分布,滿足 .
  4. 如果 為獨立標準常態隨機變量,那麼 服從自由度為n卡方分布

標準化常態隨機變量

動差(moment

一些常態分布的一階動差如下:

階數 原動差 中心矩 累積量
0 1 0
1   0  
2      
3   0 0
4     0

標準常態的所有二階以上的累積量為零。

生成常態隨機變數

中央極限定理

 
正态分布的概率密度函數,參數為μ = 12,σ = 3,趨近於n = 48、p = 1/4的二項分布的概率質量函數。

常態分布有一個非常重要的性質:在特定條件下,大量統計獨立的隨機變量的平均值的分布趨於正态分布,這就是中央極限定理。中央極限定理的重要意義在於,根據這一定理的結論,其他概率分布可以用正态分布作為近似。

  • 參數為  二項分布,在 相當大而且 接近0.5時近似於正态分布(有的參考書建議僅在  至少為5時才能使用這一近似)。

近似正态分布平均數為 且方差為 .

  • 泊松分布帶有參數 當取樣樣本數很大時將近似正态分布 .

近似正态分布平均數為 且方差為 .

這些近似值是否完全充分正確取決於使用者的使用需求

無限可分性

正态分布是無限可分的概率分布。

穩定性

正态分布是嚴格穩定的概率分布。

標準偏差

 
深藍色區域是距平均值小於一個標準差之內的數值範圍。在常態分布中,此範圍所佔比率為全部數值之68%,根據常態分布,兩個標準差之內的比率合起來為95%;三個標準差之內的比率合起來為99%

在實際應用上,常考慮一組數據具有近似於常態分布的機率分布。若其假設正確,則約68.3%數值分布在距離平均值有1個標準差之內的範圍,約95.4%數值分布在距離平均值有2個標準差之內的範圍,以及約99.7%數值分布在距離平均值有3個標準差之內的範圍。稱為「68-95-99.7法則」或「經驗法則」。

數字比率
標準差值
機率 包含之外比例
百分比 百分比 比例
0.318639σ 25% 75% 3 / 4
0.674490σ 50% 50% 1 / 2
0.994458σ 68% 32% 1 / 3.125
1σ 68.2689492% 31.7310508% 1 / 3.1514872
1.281552σ 80% 20% 1 / 5
1.644854σ 90% 10% 1 / 10
1.959964σ 95% 5% 1 / 20
2σ 95.4499736% 4.5500264% 1 / 21.977895
2.575829σ 99% 1% 1 / 100
3σ 99.7300204% 0.2699796% 1 / 370.398
3.290527σ 99.9% 0.1% 1 / 1000
3.890592σ 99.99% 0.01% 1 / 10000
4σ 99.993666% 0.006334% 1 / 15787
4.417173σ 99.999% 0.001% 1 / 100000
4.5σ 99.9993204653751% 0.0006795346249% 1 / 147159.5358
3.4 / 1000000 (每一邊)
4.891638σ 99.9999% 0.0001% 1 / 1000000
5σ 99.9999426697% 0.0000573303% 1 / 1744278
5.326724σ 99.99999% 0.00001% 1 / 10000000
5.730729σ 99.999999% 0.000001% 1 / 100000000
6σ 99.9999998027% 0.0000001973% 1 / 506797346
6.109410σ 99.9999999% 0.0000001% 1 / 1000000000
6.466951σ 99.99999999% 0.00000001% 1 / 10000000000
6.806502σ 99.999999999% 0.000000001% 1 / 100000000000
7σ 99.9999999997440% 0.000000000256% 1 / 390682215445

相關分布

  •  瑞利分布,如果 ,这里  是两个独立正态分布。
  •  卡方分布具有 自由度,如果 这里 其中 是独立的。
  •  柯西分布,如果 ,其中 并且 是两个独立的正态分布。
  •  对数正态分布如果 并且 .
  • Lévy skew alpha-stable分布相关:如果 因而 .

估計

母數的最大概似估計

概念一般化

多元正态分布協方差矩陣的估計的推導是比較難於理解的。它需要瞭解譜原理(spectral theorem)以及為什麼把一個標量看做一個1×1矩阵的迹(trace)而不僅僅是一個標量更合理的原因。請參考協方差矩陣的估計(estimation of covariance matrices)。

母數的動差估計

常見實例

光子計數

計量誤差

飲料裝填量不足與超量的機率

某飲料公司裝瓶流程嚴謹,每罐飲料裝填量符合平均600毫升,標準差3毫升的常態分配法則。隨機選取一罐,求(1)容量超過605毫升的機率;(2)容量小於590毫升的機率。

容量超過605毫升的機率 = p ( X > 605)= p ( ((X-μ) /σ) > ( (605 – 600) / 3) )= p ( Z > 5/3) = p( Z > 1.67) = 1 - 0.9525 = 0.0475

容量小於590毫升的機率 = p (X < 590) = p ( ((X-μ) /σ) < ( (590 – 600) / 3) )= p ( Z < -10/3) = p( Z < -3.33) = 0.0004

6-標準差(6-sigma或6-σ)的品質管制標準

6-標準差(6-sigma或6-σ),是製造業流行的品質管制標準。在這個標準之下,一個標準常態分配的變數值出現在正負三個標準差之外,只有2* 0.0013= 0.0026 (p (Z < -3) = 0.0013以及p(Z > 3) = 0.0013)。也就是說,這種品質管制標準的產品不良率只有萬分之二十六。假設例中的飲料公司裝瓶流程採用這個標準,而每罐飲料裝填量符合平均600毫升,標準差3毫升的常態分配。那么預期裝填容量的範圍應該多少?

6-標準差的範圍 = p ( -3 < Z < 3)= p ( - 3 < (X-μ) /σ < 3) = p ( -3 < (X- 600) / 3 < 3)= p ( -9 < X – 600 < 9) = p (591 < X < 609) 因此,預期裝填容量應該介於591至609毫升之間。

生物標本的物理特性

金融變量

壽命

測試和智力分布

計算學生智商高低的機率

假設某校入學新生的智力測驗平均分數與标准差分別為100與12。那麼隨機抽取50個學生,他們智力測驗平均分數大於105的機率?小於90的機率?

本例沒有常態分配的假設,還好中央極限定理提供一個可行解,那就是當隨機樣本長度超過30,樣本平均數 近似於一個常態變數,

因此標準常態變數 

平均分數大於105的機率  

平均分數小於90的機率  

计算统计应用

生成正态分布随机变量

在计算机模拟中,经常需要生成正态分布的数值。最基本的一个方法是使用标准的正态累积分布函数的反函数。除此之外还有其他更加高效的方法,Box-Muller变换就是其中之一。另一个更加快捷的方法是ziggurat算法。下面将介绍这两种方法。一个简单可行的并且容易编程的方法是:求12个在(0,1)上均匀分布的和,然后减6(12的一半)。这种方法可以用在很多应用中。这12个数的和是Irwin-Hall分布;选择一个方差12。这个随即推导的结果限制在(-6,6)之间,并且密度为12,是用11次多项式估计正态分布。

Box-Muller方法是以两组独立的随机数U和V,这两组数在(0,1]上均匀分布,用U和V生成两组独立的标准常态分布随机变量X和Y:

 
 

这个方程的提出是因为二自由度的卡方分布(见性质4)很容易由指数随机变量(方程中的lnU)生成。因而通过随机变量V可以选择一个均匀环绕圆圈的角度,用指数分布选择半径然后变换成(正态分布的)x,y坐标。

参考文献

  1. ^ Normal Distribution (页面存档备份,存于互联网档案馆), Gale Encyclopedia of Psychology
  2. ^ Casella & Berger (2001, p. 102)
  3. ^ 3.0 3.1 3.2 Shaou-Gang Miaou; Jin-Syan Chou. 《Fundamentals of probability and statistics》. 高立圖書. 2012: 第147頁. ISBN 9789864128990. 
  • John Aldrich. .網上材料,2006年6月3日存在.(See "Symbols associated with the Normal Distribution".)
  • Abraham de Moivre (1738年). The Doctrine of Chances.
  • Stephen Jay Gould (1981年). The Mismeasure of Man. First edition. W. W. Norton. ISBN 978-0-393-01489-1.
  • R. J. Herrnstein and Charles Murray (1994年). The Bell Curve: Intelligence and Class Structure in American Life. Free Press. ISBN 978-0-02-914673-6.
  • Pierre-Simon Laplace (1812年). Analytical Theory of Probabilities.
  • Jeff Miller, John Aldrich, et al. . In particular, the entries for , , , and .網上材料,2006年6月3日存在
  • S. M. Stigler (1999年). Statistics on the Table, chapter 22. Harvard University Press. (History of the term "normal distribution".)
  • Eric W. Weisstein et al. Normal Distribution (页面存档备份,存于互联网档案馆) at MathWorld.網上材料,2006年6月3日存在。
  • Marvin Zelen and Norman C. Severo (1964年). Probability Functions. Chapter 26 of Handbook of Mathematical Functions with Formulas, Graphs, and Mathematical Tables, ed, by Milton Abramowitz and Irene A. Stegun. National Bureau of Standards.

外部链接

  • Interactive Distribution Modeler (incl. Normal Distribution) (页面存档备份,存于互联网档案馆).
  • basic tools for sixsigma (页面存档备份,存于互联网档案馆
  • PlanetMath: normal random variable (页面存档备份,存于互联网档案馆
  • GNU Scientific Library – Reference Manual – The Gaussian Distribution (页面存档备份,存于互联网档案馆
  • Distribution Calculator (页面存档备份,存于互联网档案馆) – Calculates probabilities and critical values for normal, t, chi-square and F-distribution.
  • Normal distribution table (页面存档备份,存于互联网档案馆
  • The Doctrine of Chance (页面存档备份,存于互联网档案馆) at MathPages.
  • 在线计算器 正态分布 (页面存档备份,存于互联网档案馆
  • Binomial Distribution Calculator (页面存档备份,存于互联网档案馆

參見

正态分布, 此條目翻譯品質不佳, 2022年4月24日, 翻譯者可能不熟悉中文或原文語言, 也可能使用了機器翻譯, 請協助翻譯本條目或重新編寫, 并注意避免翻译腔的问题, 明顯拙劣的翻譯請改掛, href, template, html, class, redirect, title, template, href, wikipedia, html, class, redirect, title, wikipedia, 提交刪除, 香港作正態分佈, 台湾作常態分布, 英語, normal, distribution. 此條目翻譯品質不佳 2022年4月24日 翻譯者可能不熟悉中文或原文語言 也可能使用了機器翻譯 請協助翻譯本條目或重新編寫 并注意避免翻译腔的问题 明顯拙劣的翻譯請改掛 a href Template D html class mw redirect title Template D d a a href Wikipedia CSD html G13 class mw redirect title Wikipedia CSD G13 a 提交刪除 正态分布 香港作正態分佈 台湾作常態分布 英語 Normal distribution 又名高斯分佈 英語 Gaussian distribution 正規分佈 是一個非常常見的連續機率分布 常態分布在统计学上十分重要 經常用在自然和社会科学來代表一個不明的隨機變量 1 2 常態分布概率密度函數 紅線代表標準常態分布累積分布函數顏色與機率密度函數同参数m displaystyle mu 数学期望 实数 s 2 gt 0 displaystyle sigma 2 gt 0 方差 实数 值域x displaystyle x in infty infty 概率密度函数1 s 2 p exp x m 2 2 s 2 displaystyle frac 1 sigma sqrt 2 pi exp left frac left x mu right 2 2 sigma 2 right 累積分布函數1 2 1 erf x m s 2 displaystyle frac 1 2 left 1 operatorname erf frac x mu sigma sqrt 2 right 期望值m displaystyle mu 中位數m displaystyle mu 眾數m displaystyle mu 方差s 2 displaystyle sigma 2 偏度0峰度0熵ln s 2 p e displaystyle ln left sigma sqrt 2 pi e right 矩生成函数M X t exp m t s 2 t 2 2 displaystyle M X t exp left mu t sigma 2 frac t 2 2 right 特徵函数ϕ X t exp m i t s 2 t 2 2 displaystyle phi X t exp left mu i t frac sigma 2 t 2 2 right 若隨機變數X displaystyle X 服從一個位置參數為m displaystyle mu 尺度參數為s displaystyle sigma 的常態分布 記為 X N m s 2 displaystyle X sim N mu sigma 2 3 則其機率密度函數為 f x 1 s 2 p e x m 2 2 s 2 displaystyle f x frac 1 sigma sqrt 2 pi e frac left x mu right 2 2 sigma 2 3 常態分布的數學期望值或期望值m displaystyle mu 等於位置參數 決定了分布的位置 其方差s 2 displaystyle sigma 2 的開平方或標準差s displaystyle sigma 等於尺度參數 決定了分布的幅度 中心极限定理指出 在特定条件下 一个具有有限均值和方差的随机变量的多个样本 观察值 的平均值本身就是一个随机变量 其分布随着样本数量的增加而收敛于正态分布 因此 许多与独立过程总和有关的物理量 例如测量误差 通常可被近似为正态分布 常態分布的機率密度函數曲線呈鐘形 因此人們又經常稱之為鐘形曲線 类似于寺庙里的大钟 因此得名 我們通常所說的標準常態分布是位置參數m 0 displaystyle mu 0 尺度參數s 2 1 displaystyle sigma 2 1 的常態分布 3 見右圖中紅色曲線 目录 1 概要 1 1 歷史 2 正态分布的定義 2 1 機率密度函數 2 2 累積分布函數 2 3 生成函數 2 3 1 動差母函數 2 3 2 特徵函數 3 性質 3 1 標準化常態隨機變量 3 2 動差 moment 3 3 生成常態隨機變數 3 4 中央極限定理 3 5 無限可分性 3 6 穩定性 3 7 標準偏差 4 相關分布 5 估計 5 1 母數的最大概似估計 5 1 1 概念一般化 5 2 母數的動差估計 6 常見實例 6 1 光子計數 6 2 計量誤差 6 2 1 飲料裝填量不足與超量的機率 6 3 生物標本的物理特性 6 4 金融變量 6 5 壽命 6 6 測試和智力分布 6 6 1 計算學生智商高低的機率 7 计算统计应用 7 1 生成正态分布随机变量 8 参考文献 9 外部链接 10 參見概要 编辑正態分布是自然科學與行為科學中的定量現象的一個方便模型 各種各樣的心理學測試分數和物理現象比如光子計數都被發現近似地服從常態分布 儘管這些現象的根本原因經常是未知的 理論上可以證明如果把許多小作用加起來看做一個變量 那麼這個變量服從常態分布 在R N Bracewell的Fourier transform and its application中可以找到一種簡單的證明 常態分布出現在許多區域統計 例如 採樣分布均值是近似地常態的 即使被採樣的樣本的原始群體分布並不服從常態分布 另外 常態分布信息熵在所有的已知均值及方差的分布中最大 這使得它作為一種均值以及方差已知的分布的自然選擇 常態分布是在統計以及許多統計測試中最廣泛應用的一類分布 在概率論 常態分布是幾種連續以及離散分布的極限分布 歷史 编辑 常態分布最早是棣莫弗在1718年著作的書籍的 Doctrine of Change 及1734年發表的一篇關於二項分布文章中提出的 當二項隨機變數的位置參數n很大及形狀參數p為1 2時 則所推導出二項分布的近似分布函數就是常態分布 拉普拉斯在1812年发表的 分析概率论 Theorie Analytique des Probabilites 中對棣莫佛的結論作了擴展到二項分布的位置參數為n及形狀參數為1 gt p gt 0時 現在这一结论通常被稱為棣莫佛 拉普拉斯定理 拉普拉斯在誤差分析試驗中使用了常態分布 勒讓德於1805年引入最小二乘法這一重要方法 而高斯則宣稱他早在1794年就使用了該方法 並通過假設誤差服從常態分布給出了嚴格的證明 将正态分布称作 鐘形曲線 的习惯可以追溯到Jouffret他在1872年首次提出這個術語 Bell curve 用來指代二元常態分布 正态分布這個名字還被查爾斯 皮爾士 法蘭西斯 高爾頓 威爾赫姆 萊克希斯在1875分别獨立地使用 這個術語是不幸的 因為它反映和鼓勵了一種謬誤 即很多概率分布都是常態的 請參考下面的 實例 這個分布被稱為 常態 或者 高斯 正好是史蒂格勒名字由來法則的一個例子 這個法則說 沒有科學發現是以它最初的發現者命名的 正态分布的定義 编辑有幾種不同的方法用來說明一個隨機變量 最直觀的方法是概率密度函數 這種方法能夠表示隨機變量每個取值有多大的可能性 累積分布函數是一種概率上更加清楚的方法 請看下邊的例子 還有一些其他的等價方法 例如cumulant 特徵函數 動差生成函數以及cumulant 生成函數 這些方法中有一些對於理論工作非常有用 但是不夠直觀 請參考關於概率分布的討論 機率密度函數 编辑 四个不同参数集的概率密度函数 紅色线代表标准正态分布 常態分布的概率密度函數均值為m displaystyle mu 方差為s 2 displaystyle sigma 2 或標準差s displaystyle sigma 是高斯函數的一個實例 f x m s 1 s 2 p exp x m 2 2 s 2 displaystyle f x mu sigma frac 1 sigma sqrt 2 pi exp left frac x mu 2 2 sigma 2 right 請看指數函數以及p displaystyle pi 如果一個隨機變量X displaystyle X 服從這個分布 我們寫作 X displaystyle X N m s 2 displaystyle N mu sigma 2 如果m 0 displaystyle mu 0 並且s 1 displaystyle sigma 1 這個分布被稱為標準正态分布 這個分布能夠簡化為 f x 1 2 p exp x 2 2 displaystyle f x frac 1 sqrt 2 pi exp left frac x 2 2 right 右邊是給出了不同參數的正态分布的函數圖 正态分布中一些值得注意的量 密度函數關於平均值對稱 平均值與它的眾數 statistical mode 以及中位數 median 同一數值 函數曲線下68 268949 的面積在平均數左右的一個標準差範圍內 95 449974 的面積在平均數左右兩個標準差2 s displaystyle 2 sigma 的範圍內 99 730020 的面積在平均數左右三個標準差3 s displaystyle 3 sigma 的範圍內 99 993666 的面積在平均數左右四個標準差4 s displaystyle 4 sigma 的範圍內 函數曲線的拐點 inflection point 為離平均數一個標準差距離的位置 累積分布函數 编辑 上图所示的機率密度函数的累積分布函數 累積分布函數是指隨機變數X displaystyle X 小於或等於x displaystyle x 的機率 用機率密度函數表示為 F x m s 1 s 2 p x exp t m 2 2 s 2 d t displaystyle F x mu sigma frac 1 sigma sqrt 2 pi int infty x exp left frac t mu 2 2 sigma 2 right dt 常態分布的累積分布函数能够由一個叫做误差函数的特殊函数表示 F z 1 2 1 erf z m s 2 displaystyle Phi z frac 1 2 left 1 operatorname erf left frac z mu sigma sqrt 2 right right 標準常態分布的累積分布函數習慣上記為F displaystyle Phi 它僅僅是指m 0 displaystyle mu 0 s 1 displaystyle sigma 1 時的值 F x F x 0 1 1 2 p x exp t 2 2 d t displaystyle Phi x F x 0 1 frac 1 sqrt 2 pi int infty x exp left frac t 2 2 right dt 將一般常態分布用誤差函數表示的公式简化 可得 F z 1 2 1 erf z 2 displaystyle Phi z frac 1 2 left 1 operatorname erf left frac z sqrt 2 right right 它的反函數被稱為反誤差函數 為 F 1 p 2 erf 1 2 p 1 displaystyle Phi 1 p sqrt 2 operatorname erf 1 left 2p 1 right 該分位數函數有時也被稱為probit函數 probit函數已被證明沒有初等原函数 常態分布的分布函數F x displaystyle Phi x 沒有解析表達式 它的值可以通過數值積分 泰勒級數或者漸進序列近似得到 生成函數 编辑 動差母函數 编辑 動差生成函數 或稱動差母函數被定義為exp t X displaystyle exp tX 的期望值 常態分布的動差產生函數如下 M X t displaystyle M X t E e t X displaystyle mathrm E left e tX right 1 s 2 p e x m 2 2 s 2 e t x d x displaystyle int infty infty frac 1 sigma sqrt 2 pi e left frac x mu 2 2 sigma 2 right e tx dx e m t s 2 t 2 2 displaystyle e left mu t frac sigma 2 t 2 2 right 可以通過在指數函數內配平方得到 特徵函數 编辑 特徵函數被定義為exp i t X displaystyle exp itX 的期望值 其中i displaystyle i 是虛數單位 對於一個常态分布來講 特徵函數是 ϕ X t m s displaystyle phi X t mu sigma E exp i t X displaystyle mathrm E left exp itX right 1 s 2 p exp x m 2 2 s 2 exp i t x d x displaystyle int infty infty frac 1 sigma sqrt 2 pi exp left frac x mu 2 2 sigma 2 right exp itx dx exp i m t s 2 t 2 2 displaystyle exp left i mu t frac sigma 2 t 2 2 right 把矩生成函數中的t displaystyle t 換成i t displaystyle it 就能得到特徵函數 性質 编辑常態分布的一些性質 如果X N m s 2 displaystyle X sim N mu sigma 2 且a displaystyle a 與b displaystyle b 是實數 那麼a X b N a m b a s 2 displaystyle aX b sim N a mu b a sigma 2 參見期望值和方差 如果X N m X s X 2 displaystyle X sim N mu X sigma X 2 與Y N m Y s Y 2 displaystyle Y sim N mu Y sigma Y 2 是統計獨立的常態隨機變量 那麼 它們的和也滿足常態分布U X Y N m X m Y s X 2 s Y 2 displaystyle U X Y sim N mu X mu Y sigma X 2 sigma Y 2 proof 英语 sum of normally distributed random variables 它們的差也滿足常態分布V X Y N m X m Y s X 2 s Y 2 displaystyle V X Y sim N mu X mu Y sigma X 2 sigma Y 2 U displaystyle U 與V displaystyle V 兩者是相互獨立的 要求X与Y的方差相等 如果X N 0 s X 2 displaystyle X sim N 0 sigma X 2 和Y N 0 s Y 2 displaystyle Y sim N 0 sigma Y 2 是獨立常態隨機變量 那麼 它們的積X Y displaystyle XY 服從機率密度函數為p displaystyle p 的分布 p z 1 p s X s Y K 0 z s X s Y displaystyle p z frac 1 pi sigma X sigma Y K 0 left frac z sigma X sigma Y right 其中K 0 displaystyle K 0 是修正貝塞爾函數 modified Bessel function 它們的比符合柯西分布 滿足X Y C a u c h y 0 s X s Y displaystyle X Y sim mathrm Cauchy 0 sigma X sigma Y 如果X 1 X n displaystyle X 1 cdots X n 為獨立標準常態隨機變量 那麼X 1 2 X n 2 displaystyle X 1 2 cdots X n 2 服從自由度為n的卡方分布 標準化常態隨機變量 编辑 此章节尚無任何内容 動差 moment 编辑 一些常態分布的一階動差如下 階數 原動差 中心矩 累積量0 1 01 m displaystyle mu 0 m displaystyle mu 2 m 2 s 2 displaystyle mu 2 sigma 2 s 2 displaystyle sigma 2 s 2 displaystyle sigma 2 3 m 3 3 m s 2 displaystyle mu 3 3 mu sigma 2 0 04 m 4 6 m 2 s 2 3 s 4 displaystyle mu 4 6 mu 2 sigma 2 3 sigma 4 3 s 4 displaystyle 3 sigma 4 0標準常態的所有二階以上的累積量為零 生成常態隨機變數 编辑 此章节尚無任何内容 中央極限定理 编辑 主条目 中央極限定理 正态分布的概率密度函數 參數為m 12 s 3 趨近於n 48 p 1 4的二項分布的概率質量函數 常態分布有一個非常重要的性質 在特定條件下 大量統計獨立的隨機變量的平均值的分布趨於正态分布 這就是中央極限定理 中央極限定理的重要意義在於 根據這一定理的結論 其他概率分布可以用正态分布作為近似 參數為n displaystyle n 和p displaystyle p 的二項分布 在n displaystyle n 相當大而且p displaystyle p 接近0 5時近似於正态分布 有的參考書建議僅在n p displaystyle np 與n 1 p displaystyle n 1 p 至少為5時才能使用這一近似 近似正态分布平均數為m n p displaystyle mu np 且方差為s 2 n p 1 p displaystyle sigma 2 np 1 p 一泊松分布帶有參數l displaystyle lambda 當取樣樣本數很大時將近似正态分布l displaystyle lambda 近似正态分布平均數為m l displaystyle mu lambda 且方差為s 2 l displaystyle sigma 2 lambda 這些近似值是否完全充分正確取決於使用者的使用需求 無限可分性 编辑 正态分布是無限可分的概率分布 穩定性 编辑 正态分布是嚴格穩定的概率分布 標準偏差 编辑 深藍色區域是距平均值小於一個標準差之內的數值範圍 在常態分布中 此範圍所佔比率為全部數值之68 根據常態分布 兩個標準差之內的比率合起來為95 三個標準差之內的比率合起來為99 在實際應用上 常考慮一組數據具有近似於常態分布的機率分布 若其假設正確 則約68 3 數值分布在距離平均值有1個標準差之內的範圍 約95 4 數值分布在距離平均值有2個標準差之內的範圍 以及約99 7 數值分布在距離平均值有3個標準差之內的範圍 稱為 68 95 99 7法則 或 經驗法則 數字比率標準差值 機率 包含之外比例百分比 百分比 比例6999318639000000000 0 318639 s 25 75 3 46999674490000000000 0 674490 s 7001500000000000000 50 7001500000000000000 50 1 7000200000000000000 26999994458000000000 0 994458 s 68 32 1 3 1251s 7001682689492000000 68 2689492 7001317310508000000 31 7310508 1 7000315148720000000 3 15148727000128155200000000 1 281552 s 80 20 1 57000164485400000000 1 644854 s 90 10 1 107000195996400000000 1 959964 s 95 5 1 202s 7001954499736000000 95 4499736 7000455002640000000 4 5500264 1 7001219778950000000 21 9778957000257582900000000 2 575829 s 99 1 1 1003s 7001997300204000000 99 7300204 6999269979600000000 0 2699796 1 370 3987000329052700000000 3 290527 s 99 9 0 1 1 7003100000000000000 10007000389059200000000 3 890592 s 99 99 0 01 1 7004100000000000000 100004s 7001999936660000000 99 993666 6997633400000000000 0 006334 1 7004157870000000000 157877000441717300000000 4 417173 s 99 999 0 001 1 7005100000000000000 1000007000450000000000000 4 5 s 99 999320 465 3751 0 000679 534 6249 1 7005147159535800000 147159 5358 3 4 7006100000000000000 1000 000 每一邊 7000489163800000000 4 891638 s 7001999999000000000 99 9999 6996100000000000000 0 0001 1 7006100000000000000 1000 0005s 7001999999426697000 99 999942 6697 6995573303000000000 0 000057 3303 1 7006174427800000000 1744 2787000532672399999999 5 326724 s 7001999999900000000 99 99999 6995100000000000000 0 00001 1 7007100000000000000 10000 0007000573072900000000 5 730729 s 7001999999990000000 99 999999 6994100000000000000 0 000001 1 7008100000000000000 100000 0007000600000000000000 6 s 7001999999998027000 99 999999 8027 6993197300000000000 0 000000 1973 1 7008506797346000000 506797 3467000610941000000000 6 109410 s 7001999999999000000 99 9999999 6993100000000000000 0 0000001 1 7009100000000000000 1000 000 0007000646695100000000 6 466951 s 7001999999999900000 99 999999 99 6992100000000000000 0 000000 01 1 7010100000000000000 10000 000 0007000680650200000000 6 806502 s 7001999999999990000 99 999999 999 6991100000000000000 0 000000 001 1 7011100000000000000 100000 000 0007s 99 999999 999 7440 6990256000000000000 0 000000 000 256 1 7011390682215445000 390682 215 445相關分布 编辑R R a y l e i g h s displaystyle R sim mathrm Rayleigh sigma 是瑞利分布 如果R X 2 Y 2 displaystyle R sqrt X 2 Y 2 这里X N 0 s 2 displaystyle X sim N 0 sigma 2 和Y N 0 s 2 displaystyle Y sim N 0 sigma 2 是两个独立正态分布 Y x n 2 displaystyle Y sim chi nu 2 是卡方分布具有n displaystyle nu 自由度 如果Y k 1 n X k 2 displaystyle Y sum k 1 nu X k 2 这里X k N 0 1 displaystyle X k sim N 0 1 其中k 1 n displaystyle k 1 dots nu 是独立的 Y C a u c h y m 0 8 1 displaystyle Y sim mathrm Cauchy mu 0 theta 1 是柯西分布 如果Y X 1 X 2 displaystyle Y X 1 X 2 其中X 1 N 0 1 displaystyle X 1 sim N 0 1 并且X 2 N 0 1 displaystyle X 2 sim N 0 1 是两个独立的正态分布 Y Log N m s 2 displaystyle Y sim mbox Log N mu sigma 2 是对数正态分布如果Y e X displaystyle Y e X 并且X N m s 2 displaystyle X sim N mu sigma 2 与Levy skew alpha stable分布相关 如果X Levy S a S 2 b s 2 m displaystyle X sim textrm Levy S alpha textrm S 2 beta sigma sqrt 2 mu 因而X N m s 2 displaystyle X sim N mu sigma 2 估計 编辑母數的最大概似估計 编辑 概念一般化 编辑 多元正态分布的協方差矩陣的估計的推導是比較難於理解的 它需要瞭解譜原理 spectral theorem 以及為什麼把一個標量看做一個1 1矩阵的迹 trace 而不僅僅是一個標量更合理的原因 請參考協方差矩陣的估計 estimation of covariance matrices 母數的動差估計 编辑 此章节尚無任何内容 常見實例 编辑光子計數 编辑 此章节尚無任何内容 計量誤差 编辑 飲料裝填量不足與超量的機率 编辑 某飲料公司裝瓶流程嚴謹 每罐飲料裝填量符合平均600毫升 標準差3毫升的常態分配法則 隨機選取一罐 求 1 容量超過605毫升的機率 2 容量小於590毫升的機率 容量超過605毫升的機率 p X gt 605 p X m s gt 605 600 3 p Z gt 5 3 p Z gt 1 67 1 0 9525 0 0475容量小於590毫升的機率 p X lt 590 p X m s lt 590 600 3 p Z lt 10 3 p Z lt 3 33 0 00046 標準差 6 sigma或6 s 的品質管制標準6 標準差 6 sigma或6 s 是製造業流行的品質管制標準 在這個標準之下 一個標準常態分配的變數值出現在正負三個標準差之外 只有2 0 0013 0 0026 p Z lt 3 0 0013以及p Z gt 3 0 0013 也就是說 這種品質管制標準的產品不良率只有萬分之二十六 假設例中的飲料公司裝瓶流程採用這個標準 而每罐飲料裝填量符合平均600毫升 標準差3毫升的常態分配 那么預期裝填容量的範圍應該多少 6 標準差的範圍 p 3 lt Z lt 3 p 3 lt X m s lt 3 p 3 lt X 600 3 lt 3 p 9 lt X 600 lt 9 p 591 lt X lt 609 因此 預期裝填容量應該介於591至609毫升之間 生物標本的物理特性 编辑 此章节尚無任何内容 金融變量 编辑 此章节尚無任何内容 壽命 编辑 此章节尚無任何内容 測試和智力分布 编辑 計算學生智商高低的機率 编辑 假設某校入學新生的智力測驗平均分數與标准差分別為100與12 那麼隨機抽取50個學生 他們智力測驗平均分數大於105的機率 小於90的機率 本例沒有常態分配的假設 還好中央極限定理提供一個可行解 那就是當隨機樣本長度超過30 樣本平均數x displaystyle bar x 近似於一個常態變數 因此標準常態變數Z X m s n displaystyle Z frac bar X mu sigma sqrt n 平均分數大於105的機率 P Z gt 105 100 12 50 P Z gt 5 1 7 P Z gt 2 94 0 0016 displaystyle P Z gt frac 105 100 12 sqrt 50 P Z gt 5 1 7 P Z gt 2 94 0 0016 平均分數小於90的機率 P Z lt 90 100 12 50 P Z lt 5 88 0 0000 displaystyle P Z lt frac 90 100 12 sqrt 50 P Z lt 5 88 0 0000 计算统计应用 编辑生成正态分布随机变量 编辑 在计算机模拟中 经常需要生成正态分布的数值 最基本的一个方法是使用标准的正态累积分布函数的反函数 除此之外还有其他更加高效的方法 Box Muller变换就是其中之一 另一个更加快捷的方法是ziggurat算法 下面将介绍这两种方法 一个简单可行的并且容易编程的方法是 求12个在 0 1 上均匀分布的和 然后减6 12的一半 这种方法可以用在很多应用中 这12个数的和是Irwin Hall分布 选择一个方差12 这个随即推导的结果限制在 6 6 之间 并且密度为12 是用11次多项式估计正态分布 Box Muller方法是以两组独立的随机数U和V 这两组数在 0 1 上均匀分布 用U和V生成两组独立的标准常态分布随机变量X和Y X 2 ln U cos 2 p V displaystyle X sqrt 2 ln U cos 2 pi V Y 2 ln U sin 2 p V displaystyle Y sqrt 2 ln U sin 2 pi V 这个方程的提出是因为二自由度的卡方分布 见性质4 很容易由指数随机变量 方程中的lnU 生成 因而通过随机变量V可以选择一个均匀环绕圆圈的角度 用指数分布选择半径然后变换成 正态分布的 x y坐标 参考文献 编辑 Normal Distribution 页面存档备份 存于互联网档案馆 Gale Encyclopedia of Psychology Casella amp Berger 2001 p 102 3 0 3 1 3 2 Shaou Gang Miaou Jin Syan Chou Fundamentals of probability and statistics 高立圖書 2012 第147頁 ISBN 9789864128990 引文使用过时参数coauthors 帮助 John Aldrich Earliest Uses of Symbols in Probability and Statistics 網上材料 2006年6月3日存在 See Symbols associated with the Normal Distribution Abraham de Moivre 1738年 The Doctrine of Chances Stephen Jay Gould 1981年 The Mismeasure of Man First edition W W Norton ISBN 978 0 393 01489 1 R J Herrnstein and Charles Murray 1994年 The Bell Curve Intelligence and Class Structure in American Life Free Press ISBN 978 0 02 914673 6 Pierre Simon Laplace 1812年 Analytical Theory of Probabilities Jeff Miller John Aldrich et al Earliest Known Uses of Some of the Words of Mathematics In particular the entries for bell shaped and bell curve normal distribution Gaussian and Error law of error theory of errors etc 網上材料 2006年6月3日存在 S M Stigler 1999年 Statistics on the Table chapter 22 Harvard University Press History of the term normal distribution Eric W Weisstein et al Normal Distribution 页面存档备份 存于互联网档案馆 at MathWorld 網上材料 2006年6月3日存在 Marvin Zelen and Norman C Severo 1964年 Probability Functions Chapter 26 of Handbook of Mathematical Functions with Formulas Graphs and Mathematical Tables ed by Milton Abramowitz and Irene A Stegun National Bureau of Standards 外部链接 编辑维基共享资源中相关的多媒体资源 正态分布Interactive Distribution Modeler incl Normal Distribution 页面存档备份 存于互联网档案馆 basic tools for sixsigma 页面存档备份 存于互联网档案馆 PlanetMath normal random variable 页面存档备份 存于互联网档案馆 GNU Scientific Library Reference Manual The Gaussian Distribution 页面存档备份 存于互联网档案馆 Distribution Calculator 页面存档备份 存于互联网档案馆 Calculates probabilities and critical values for normal t chi square and F distribution Inverse Cumulative Standard Normal Distribution Function Is normal distribution due to Karl Gauss Euler his family of gamma functions and place in history of statistics Maxwell demons Simulating probability distributions with functions of propositional calculus Normal distribution table 页面存档备份 存于互联网档案馆 The Doctrine of Chance 页面存档备份 存于互联网档案馆 at MathPages 正态分布的前世今生 上 正态分布的前世今生 下 在线计算器 正态分布 页面存档备份 存于互联网档案馆 Binomial Distribution Calculator 页面存档备份 存于互联网档案馆 參見 编辑 数学主题 统计学主题 中心極限定理 概率論 伽玛分布 取自 https zh wikipedia org w index php title 正态分布 amp oldid 74854244, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。