fbpx
维基百科

標準差

標準差,又稱標準偏差均方差 (英語:standard deviation,縮寫SD,符號σ),在概率統計中最常使用作為測量一組數值的離散程度之用。標準差定義:為方差算术平方根,反映组内個體間的離散程度;標準差與期望值之比為標準離差率。測量到分佈程度的結果,原則上具有兩種性質:

  1. 為非負數值(因為平方後再做平方根);
  2. 與測量資料具有相同單位(這樣才能比對)。
图中红蓝两组数据平均值相同,但标准差不同。红色数据的标准差较蓝色数据的标准差要小。

一個總量的標準差或一個隨機變量的標準差,及一個子集合樣品數的標準差之間,有所差別。其公式如下所列。

標準差的概念由卡爾·皮爾森引入到統計中。

闡述及應用

簡單來說,標準差是一組數值自平均值分散開來的程度的一種測量觀念。一個較大的標準差,代表大部分的數值和其平均值之間差異較大;一個較小的標準差,代表這些數值較接近平均值。

例如,兩組數的集合{0, 5, 9, 14}和{5, 6, 8, 9}其平均值都是7,但第二個集合具有較小的標準差。

表述“相差 个标准差”,即在  样本(sample)范围内考量。

標準差可以當作不確定性的一種測量。例如在物理科學中,做重複性測量時,測量數值集合的標準差代表這些測量的精確度。當要決定測量值是否符合預測值,測量值的標準差佔有決定性重要角色:如果測量平均值與預測值相差太遠(同時與標準差數值做比較),則認為測量值與預測值互相矛盾。這很容易理解,因為如果測量值都落在一定數值範圍之外,可以合理推論預測值是否正確。

標準差應用於投資上,可作為量度回報穩定性的指標。標準差數值越大,代表回報遠離過去平均數值,回報較不穩定故風險越高。相反,標準差數值越小,代表回報較為穩定,風險亦較小。

母體的標準差

基本定義

 

 为平均值。

简化计算公式

上述公式可以如下代換而簡化:

 

所以:

 

根號裡面,亦即變異數 )的簡易口訣為:「平方和的平均」減去「平均的平方」。

母體為随机变量

隨機變量 的標準差定義為:

 

須注意並非所有隨機變量都具有標準差,因為有些隨機變量不存在期望值。 如果隨機變量  具有相同機率,則可用上述公式計算標準差。

離散随机变量的标准差

 是由實數 構成的離散隨機變數(英語:discrete random variable),且每個值的機率相等,則 的標準差定義為:

  ,其中  

換成用 來寫,就成為:

  ,其中  

目前為止,與母體標準差的基本公式一致。

然而若每個 可以有不同機率 ,則 的标准差定義為:

  ,其中  

这里,  的数学期望。

连续随机变量的标准差

 為概率密度 连续随机变量(英語:continuous random variable),則 的标准差定義為:

 

其中  的数学期望:

 

标准差的特殊性质

对于常数 和随机变量  

 
 
 
其中:
  •  表示随机变量  协方差
  •  表示 ,即  的變異數),對 亦同。

样本的标准差

在真实世界中,找到一个总体的真实的标准差並不實際。大多数情况下,总体标准差是通过随机抽取一定量的样本并计算样本标准差估计的。

從一大組數值 當中取出一樣本數值組合 ,常定義其樣本標準差

 

样本方差 是对总体方差 无偏估计。之所以 中的分母要用 而不是像总体样本差那样用 ,是因为 自由度 ,这是由于存在约束条件 

範例

這裡示範如何計算一組數的標準差。例如一群孩童年齡的數值為{ 5, 6, 8, 9 }:

  • 第一步,計算平均值 
 
 (因為集合裏有4個數),分別設為:
 

則平均值為

 
  • 第二步,計算標準差 
 

常態分佈的規則

 
深藍區域是距平均值小於一個標準差之內的數值範圍,在常態分佈中,此範圍所佔比率為全部數值之68%;兩個標準差之內(深藍,藍)的比率合起來為95%;三個標準差之內(深藍,藍,淺藍)的比率合起來為99.7%。

在實際應用上,常考慮一組數據具有近似於常態分佈的機率分佈。若其假設正確,則約68%數值分佈在距離平均值有1個標準差之內的範圍,約95%數值分佈在距離平均值有2個標準差之內的範圍,以及約99.7%數值分佈在距離平均值有3個標準差之內的範圍。稱為「68-95-99.7法則」。

 
 
 .[1]
 
Percentage within(z)
 
z(Percentage within)

數字比率
標準差值
機率 包含之外比例
百分比 百分比 比例
0.318 639σ 25% 75% 3 / 4
0.674490σ 50% 50% 1 / 2
0.994458σ 68% 32% 1 / 3.125
1σ 68.2689492% 31.7310508% 1 / 3.1514872
1.281552σ 80% 20% 1 / 5
1.644854σ 90% 10% 1 / 10
1.959964σ 95% 5% 1 / 20
2σ 95.4499736% 4.5500264% 1 / 21.977895
2.575829σ 99% 1% 1 / 100
3σ 99.7300204% 0.2699796% 1 / 370.398
3.290527σ 99.9% 0.1% 1 / 1000
3.890592σ 99.99% 0.01% 1 / 10000
4σ 99.993666% 0.006334% 1 / 15787
4.417173σ 99.999% 0.001% 1 / 100000
4.5σ 99.9993204653751% 0.0006795346249% 1 / 147159.5358
3.4 / 1000000 (每一邊)
4.891638σ 99.9999% 0.0001% 1 / 1000000
5σ 99.9999426697% 0.0000573303% 1 / 1744278
5.326724σ 99.99999% 0.00001% 1 / 10000000
5.730729σ 99.999999% 0.000001% 1 / 100000000
6σ 99.9999998027% 0.0000001973% 1 / 506797346
6.109410σ 99.9999999% 0.0000001% 1 / 1000000000
6.466951σ 99.99999999% 0.00000001% 1 / 10000000000
6.806502σ 99.999999999% 0.000000001% 1 / 100000000000
7σ 99.9999999997440% 0.000000000256% 1 / 390682215445

標準差與平均值之間的關係

一組數據的平均值及標準差常常同時作為參考的依據。从某种意义上说,如果用平均值來考量數值的中心的话,則標準差也就是对统计的分散度的一个“自然”的测度。因为由平均值所得的标准差要小于到其他任何一个点的标准差。較確切的敘述為:設 實數,定義函数

 

使用微積分或者通过配方法,不難算出 在下面情況下具有唯一最小值:

 

几何学解释

几何学的角度出发,标准差可以理解为一个从 维空间的一个点到一条直线的距离的函数。举一个简单的例子,一组数据中有3个值, 。它们可以在3维空间中确定一个 。想像一条通过原点的直线 。如果这组数据中的3个值都相等,则点 就是直线 上的一个点,  的距离为0,所以标准差也为0。若这3个值不都相等,过点 垂线 垂直于   于点 ,则 的坐标为这3个值的平均数:

 

运用一些代数知识,不难发现点 与点 之间的距离(也就是点 到直线 的距离)是 。在 维空间中,这个规律同样适用,把 换成 就可以了。

参考文献

  1. ^ Eric W. Weisstein. Distribution Function. MathWorld—A Wolfram Web Resource. [2014-09-30]. (原始内容于2021-04-02). 

外部链接

  • ,标准差计算器 (英文)

標準差, 均方差, 重定向至此, 關於均方誤差, 詳見, 均方誤差, 關於均方根誤差, rmse, 詳見, 均方根誤差, 提示, 此条目的主题不是標準誤差, 又稱標準偏差, 均方差, 英語, standard, deviation, 縮寫sd, 符號σ, 在概率統計中最常使用作為測量一組數值的離散程度之用, 定義, 為方差開算术平方根, 反映组内個體間的離散程度, 與期望值之比為標準離差率, 測量到分佈程度的結果, 原則上具有兩種性質, 為非負數值, 因為平方後再做平方根, 與測量資料具有相同單位, 這樣才能比對,. 均方差 重定向至此 關於均方誤差 MSE 詳見 均方誤差 關於均方根誤差 RMSE 詳見 均方根誤差 提示 此条目的主题不是標準誤差 標準差 又稱標準偏差 均方差 英語 standard deviation 縮寫SD 符號s 在概率統計中最常使用作為測量一組數值的離散程度之用 標準差定義 為方差開算术平方根 反映组内個體間的離散程度 標準差與期望值之比為標準離差率 測量到分佈程度的結果 原則上具有兩種性質 為非負數值 因為平方後再做平方根 與測量資料具有相同單位 這樣才能比對 图中红蓝两组数据平均值相同 但标准差不同 红色数据的标准差较蓝色数据的标准差要小 一個總量的標準差或一個隨機變量的標準差 及一個子集合樣品數的標準差之間 有所差別 其公式如下所列 標準差的概念由卡爾 皮爾森引入到統計中 目录 1 闡述及應用 2 母體的標準差 2 1 基本定義 2 2 简化计算公式 2 3 母體為随机变量 2 3 1 離散随机变量的标准差 2 3 2 连续随机变量的标准差 2 4 标准差的特殊性质 3 样本的标准差 4 範例 5 常態分佈的規則 6 標準差與平均值之間的關係 7 几何学解释 8 参考文献 9 外部链接闡述及應用 编辑簡單來說 標準差是一組數值自平均值分散開來的程度的一種測量觀念 一個較大的標準差 代表大部分的數值和其平均值之間差異較大 一個較小的標準差 代表這些數值較接近平均值 例如 兩組數的集合 0 5 9 14 和 5 6 8 9 其平均值都是7 但第二個集合具有較小的標準差 表述 相差k displaystyle k 个标准差 即在 X k S displaystyle overline X pm kS 的样本 sample 范围内考量 標準差可以當作不確定性的一種測量 例如在物理科學中 做重複性測量時 測量數值集合的標準差代表這些測量的精確度 當要決定測量值是否符合預測值 測量值的標準差佔有決定性重要角色 如果測量平均值與預測值相差太遠 同時與標準差數值做比較 則認為測量值與預測值互相矛盾 這很容易理解 因為如果測量值都落在一定數值範圍之外 可以合理推論預測值是否正確 標準差應用於投資上 可作為量度回報穩定性的指標 標準差數值越大 代表回報遠離過去平均數值 回報較不穩定故風險越高 相反 標準差數值越小 代表回報較為穩定 風險亦較小 母體的標準差 编辑基本定義 编辑 s 1 N i 1 N x i x 2 displaystyle sigma sqrt frac 1 N sum i 1 N x i overline x 2 x displaystyle overline x 为平均值 简化计算公式 编辑 上述公式可以如下代換而簡化 i 1 N X i m 2 i 1 N X i 2 2 X i m m 2 i 1 N X i 2 2 m i 1 N X i N m 2 i 1 N X i 2 2 m N m N m 2 i 1 N X i 2 2 N m 2 N m 2 i 1 N X i 2 N m 2 displaystyle begin aligned sum i 1 N X i mu 2 amp sum i 1 N X i 2 2X i mu mu 2 amp left sum i 1 N X i 2 right left 2 mu sum i 1 N X i right N mu 2 amp left sum i 1 N X i 2 right 2 mu N mu N mu 2 amp left sum i 1 N X i 2 right 2N mu 2 N mu 2 amp left sum i 1 N X i 2 right N mu 2 end aligned 所以 s 1 N i 1 N X i m 2 1 N i 1 N X i 2 1 N N m 2 i 1 N X i 2 N m 2 displaystyle begin aligned sigma amp sqrt frac 1 N sum i 1 N X i mu 2 amp sqrt frac 1 N left sum i 1 N X i 2 right frac 1 N N mu 2 amp sqrt frac sum i 1 N X i 2 N mu 2 end aligned 根號裡面 亦即變異數 s 2 displaystyle sigma 2 的簡易口訣為 平方和的平均 減去 平均的平方 母體為随机变量 编辑 一隨機變量X displaystyle X 的標準差定義為 s E X E X 2 E X 2 E X 2 displaystyle sigma sqrt operatorname E X operatorname E X 2 sqrt operatorname E X 2 operatorname E X 2 須注意並非所有隨機變量都具有標準差 因為有些隨機變量不存在期望值 如果隨機變量X displaystyle X 為x 1 x n displaystyle x 1 cdots x n 具有相同機率 則可用上述公式計算標準差 離散随机变量的标准差 编辑 若X displaystyle X 是由實數x 1 x 2 x n displaystyle x 1 x 2 x n 構成的離散隨機變數 英語 discrete random variable 且每個值的機率相等 則X displaystyle X 的標準差定義為 s 1 N x 1 m 2 x 2 m 2 x N m 2 displaystyle sigma sqrt frac 1 N left x 1 mu 2 x 2 mu 2 cdots x N mu 2 right 其中 m 1 N x 1 x N displaystyle mu frac 1 N x 1 cdots x N 換成用 displaystyle sum 來寫 就成為 s 1 N i 1 N x i m 2 displaystyle sigma sqrt frac 1 N sum i 1 N x i mu 2 其中 m 1 N x 1 x N displaystyle mu frac 1 N x 1 cdots x N 目前為止 與母體標準差的基本公式一致 然而若每個x i displaystyle x i 可以有不同機率p i displaystyle p i 則X displaystyle X 的标准差定義為 s i 1 N p i x i m 2 displaystyle sigma sqrt sum i 1 N p i x i mu 2 其中 m i 1 N p i x i displaystyle mu sum i 1 N p i x i 这里 m displaystyle mu 为X displaystyle X 的数学期望 连续随机变量的标准差 编辑 若X displaystyle X 為概率密度p X displaystyle p X 的连续随机变量 英語 continuous random variable 則X displaystyle X 的标准差定義為 s x m 2 f x d x displaystyle sigma sqrt int x mu 2 f x dx 其中m displaystyle mu 为X displaystyle X 的数学期望 m x f x d x displaystyle mu int x f x dx 标准差的特殊性质 编辑 对于常数c displaystyle c 和随机变量X displaystyle X 和Y displaystyle Y s X c s X displaystyle sigma X c sigma X s c X c s X displaystyle sigma cX c cdot sigma X s X Y s 2 X s 2 Y 2 cov X Y displaystyle sigma X Y sqrt sigma 2 X sigma 2 Y 2 cdot mbox cov X Y 其中 cov X Y displaystyle mbox cov X Y 表示随机变量X displaystyle X 和Y displaystyle Y 的协方差 s 2 X displaystyle sigma 2 X 表示 s X 2 displaystyle sigma X 2 即V a r X displaystyle Var X X displaystyle X 的變異數 對Y displaystyle Y 亦同 dd 样本的标准差 编辑在真实世界中 找到一个总体的真实的标准差並不實際 大多数情况下 总体标准差是通过随机抽取一定量的样本并计算样本标准差估计的 從一大組數值X 1 X N displaystyle X 1 cdots X N 當中取出一樣本數值組合x 1 x n n lt N displaystyle x 1 cdots x n n lt N 常定義其樣本標準差 s 1 n 1 i 1 n x i x 2 displaystyle s sqrt frac 1 n 1 sum i 1 n x i bar x 2 样本方差s 2 displaystyle s 2 是对总体方差s 2 displaystyle sigma 2 的无偏估计 之所以s displaystyle s 中的分母要用n 1 displaystyle n 1 而不是像总体样本差那样用n displaystyle n 是因为 x i x displaystyle left x i bar x right 的自由度为n 1 displaystyle n 1 这是由于存在约束条件 i 1 n x i x 0 displaystyle sum i 1 n left x i bar x right 0 範例 编辑這裡示範如何計算一組數的標準差 例如一群孩童年齡的數值為 5 6 8 9 第一步 計算平均值x displaystyle overline x x 1 N i 1 N x i displaystyle overline x frac 1 N sum i 1 N x i 當N 4 displaystyle begin smallmatrix N 4 end smallmatrix 因為集合裏有4個數 分別設為 x 1 5 x 2 6 x 3 8 x 4 9 displaystyle begin aligned x 1 amp 5 x 2 amp 6 x 3 amp 8 x 4 amp 9 end aligned dd 則平均值為 x 1 4 i 1 4 x i N 4 1 4 x 1 x 2 x 3 x 4 1 4 5 6 8 9 7 displaystyle begin aligned overline x amp frac 1 4 sum i 1 4 x i amp N 4 amp frac 1 4 left x 1 x 2 x 3 x 4 right amp frac 1 4 left 5 6 8 9 right amp 7 end aligned 第二步 計算標準差s displaystyle sigma s 1 N i 1 N x i x 2 1 4 i 1 4 x i x 2 N 4 1 4 i 1 4 x i 7 2 x 7 1 4 x 1 7 2 x 2 7 2 x 3 7 2 x 4 7 2 1 4 5 7 2 6 7 2 8 7 2 9 7 2 1 4 2 2 1 2 1 2 2 2 1 4 4 1 1 4 10 4 1 58114 displaystyle begin aligned sigma amp sqrt frac 1 N sum i 1 N x i overline x 2 amp sqrt frac 1 4 sum i 1 4 x i overline x 2 amp N 4 amp sqrt frac 1 4 sum i 1 4 x i 7 2 amp overline x 7 amp sqrt frac 1 4 left x 1 7 2 x 2 7 2 x 3 7 2 x 4 7 2 right amp sqrt frac 1 4 left 5 7 2 6 7 2 8 7 2 9 7 2 right amp sqrt frac 1 4 left 2 2 1 2 1 2 2 2 right amp sqrt frac 1 4 left 4 1 1 4 right amp sqrt frac 10 4 amp approx 1 58114 end aligned 常態分佈的規則 编辑主条目 常態分佈 深藍區域是距平均值小於一個標準差之內的數值範圍 在常態分佈中 此範圍所佔比率為全部數值之68 兩個標準差之內 深藍 藍 的比率合起來為95 三個標準差之內 深藍 藍 淺藍 的比率合起來為99 7 在實際應用上 常考慮一組數據具有近似於常態分佈的機率分佈 若其假設正確 則約68 數值分佈在距離平均值有1個標準差之內的範圍 約95 數值分佈在距離平均值有2個標準差之內的範圍 以及約99 7 數值分佈在距離平均值有3個標準差之內的範圍 稱為 68 95 99 7法則 f x m s 2 1 s 2 p e 1 2 x m s 2 displaystyle f x mu sigma 2 frac 1 sigma sqrt 2 pi e frac 1 2 left frac x mu sigma right 2 Proportion erf z 2 displaystyle text Proportion operatorname erf left frac z sqrt 2 right Proportion x 1 2 1 erf x m s 2 1 2 1 erf z 2 displaystyle text Proportion leq x frac 1 2 left 1 operatorname erf left frac x mu sigma sqrt 2 right right frac 1 2 left 1 operatorname erf left frac z sqrt 2 right right 1 Percentage within z z Percentage within 數字比率標準差值 機率 包含之外比例百分比 百分比 比例0 318 639s 25 75 3 46999674490000000000 0 674490 s 7001500000000000000 50 7001500000000000000 50 1 7000200000000000000 26999994458000000000 0 994458 s 68 32 1 3 1251s 7001682689492000000 68 2689492 7001317310508000000 31 7310508 1 7000315148720000000 3 15148727000128155200000000 1 281552 s 80 20 1 57000164485400000000 1 644854 s 90 10 1 107000195996400000000 1 959964 s 95 5 1 202s 7001954499736000000 95 4499736 7000455002640000000 4 5500264 1 7001219778950000000 21 9778957000257582900000000 2 575829 s 99 1 1 1003s 7001997300204000000 99 7300204 6999269979600000000 0 2699796 1 370 3987000329052700000000 3 290527 s 99 9 0 1 1 7003100000000000000 10007000389059200000000 3 890592 s 99 99 0 01 1 7004100000000000000 100004s 7001999936660000000 99 993666 6997633400000000000 0 006334 1 7004157870000000000 157877000441717300000000 4 417173 s 99 999 0 001 1 7005100000000000000 1000007000450000000000000 4 5 s 99 999320 465 3751 0 000679 534 6249 1 7005147159535800000 147159 5358 3 4 7006100000000000000 1000 000 每一邊 7000489163800000000 4 891638 s 7001999999000000000 99 9999 6996100000000000000 0 0001 1 7006100000000000000 1000 0005s 7001999999426697000 99 999942 6697 6995573303000000000 0 000057 3303 1 7006174427800000000 1744 2787000532672399999999 5 326724 s 7001999999900000000 99 99999 6995100000000000000 0 00001 1 7007100000000000000 10000 0007000573072900000000 5 730729 s 7001999999990000000 99 999999 6994100000000000000 0 000001 1 7008100000000000000 100000 0007000600000000000000 6 s 7001999999998027000 99 999999 8027 6993197300000000000 0 000000 1973 1 7008506797346000000 506797 3467000610941000000000 6 109410 s 7001999999999000000 99 9999999 6993100000000000000 0 0000001 1 7009100000000000000 1000 000 0007000646695100000000 6 466951 s 7001999999999900000 99 999999 99 6992100000000000000 0 000000 01 1 7010100000000000000 10000 000 0007000680650200000000 6 806502 s 7001999999999990000 99 999999 999 6991100000000000000 0 000000 001 1 7011100000000000000 100000 000 0007s 99 999999 999 7440 6990256000000000000 0 000000 000 256 1 7011390682215445000 390682 215 445標準差與平均值之間的關係 编辑一組數據的平均值及標準差常常同時作為參考的依據 从某种意义上说 如果用平均值來考量數值的中心的话 則標準差也就是对统计的分散度的一个 自然 的测度 因为由平均值所得的标准差要小于到其他任何一个点的标准差 較確切的敘述為 設X 1 X N displaystyle X 1 cdots X N 為實數 定義函数 s m 1 N i 1 N x i m 2 displaystyle sigma mu sqrt frac 1 N sum i 1 N x i mu 2 使用微積分或者通过配方法 不難算出s m displaystyle sigma mu 在下面情況下具有唯一最小值 m x displaystyle mu overline x 几何学解释 编辑从几何学的角度出发 标准差可以理解为一个从n displaystyle n 维空间的一个点到一条直线的距离的函数 举一个简单的例子 一组数据中有3个值 X 1 X 2 X 3 displaystyle X 1 X 2 X 3 它们可以在3维空间中确定一个点P X 1 X 2 X 3 displaystyle P X 1 X 2 X 3 想像一条通过原点的直线L r r r r R displaystyle L r r r r in mathbb R 如果这组数据中的3个值都相等 则点P displaystyle P 就是直线L displaystyle L 上的一个点 P displaystyle P 到L displaystyle L 的距离为0 所以标准差也为0 若这3个值不都相等 过点P displaystyle P 作垂线P R displaystyle PR 垂直于L displaystyle L P R displaystyle PR 交L displaystyle L 于点R displaystyle R 则R displaystyle R 的坐标为这3个值的平均数 R x x x displaystyle R overline x overline x overline x 运用一些代数知识 不难发现点P displaystyle P 与点R displaystyle R 之间的距离 也就是点P displaystyle P 到直线L displaystyle L 的距离 是s 3 displaystyle sigma sqrt 3 在n displaystyle n 维空间中 这个规律同样适用 把3 displaystyle 3 换成n displaystyle n 就可以了 参考文献 编辑 Eric W Weisstein Distribution Function MathWorld A Wolfram Web Resource 2014 09 30 原始内容存档于2021 04 02 外部链接 编辑Standard Deviation Calculator 标准差计算器 英文 取自 https zh wikipedia org w index php title 標準差 amp oldid 75781576, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。