fbpx
维基百科

拉奥-布莱克韦尔定理

统计学中,拉奥-布莱克韦尔定理(Rao–Blackwell theorem),有时称为拉奥-布莱克韦尔定理-柯尔莫果洛夫定理,是一项结果,它描述了如何将任意粗糙的估计量转化为通过均方误差准则或任何一种类似准则优化的估计量。

定理指出,如果g(X)是某个参数θ的任何一种估计量,那么在给定充分统计量T(X)的条件下,g(X)的条件期望通常比g(X)本身更好地估计了θ,而且从来不会更糟。有时,可以非常容易地构造一个非常粗糙的估计量g(X),然后评估条件期望值,以获得在各种意义上都是最优的估计量。其中,充分统计量的意义是其包含数据样本中所有与待估计参数相关的信息,且不含任何冗余信息。

这个定理是以卡利安普迪·拉达克里希纳·拉奥戴维·布莱克韦尔命名的。使用拉奥-布莱克韦尔定理来转化一个估计量的过程可以被称为拉奥-布莱克韦尔化。转化后的估计量被称为拉奥-布莱克韦尔估计量。 [1][2][3]

定义 编辑

  • 一个估计量δ(X)是一个可观测的随机变量(即统计量),用于估计某些不可观测的量。例如,我们可能无法观测到X大学所有男学生的平均身高,但我们可以观测40个学生的身高。这40个学生的平均身高——"样本平均数"——可以用作估计不可观测的"总体平均数"的估计量。
  • 一个充分统计量T(X)是从数据X计算出来的一个统计量,用于估计某个参数θ,而除了这个统计量以外,从数据X中计算出来的其他统计量不会提供关于θ的任何额外信息。它被定义为一个可观测的随机变量,使得给定T(X)的条件概率分布不依赖于未观测到的参数θ,例如整个数据样本的平均值或标准差等。在最常被引用的例子中,“未观测到的”量是指参数,这些参数根据已知的概率分布族来对数据进行参数化。
换句话说,对于参数θ,一个充分统计量T(X)是这样一个统计量,使得给定T(X)的条件下,数据X的条件分布不依赖于参数θ。
  • 一个未观测量θ的拉奥-布莱克韦尔估计量δ1(X)是给定充分统计量T(X)的条件下,某个估计量δ(X)的条件期望值E(δ(X)|T(X))。我们把δ(X)称为"原始估计量",把δ1(X)称为"改进估计量"。改进估计量的重要性在于它是可观测的,即它不依赖于θ。一般而言,给定这些数据中的一个函数的条件期望值,另一个函数的条件期望值会依赖于θ,但是上述充分统计量的定义说明了这个条件期望值不会依赖于θ。
  • 不可观测量θ的拉奥-布莱克韦尔估计量δ1(X) 是给定充分统计量T(X)的某个估计量 δ(X)的条件期望值E(δ(X)|T(X))。将δ(X) 称为“原始估计量” ,将 δ1(X)称为“改进后的估计量” 。重要的是改进后的估计器是可观察的,即它不依赖于θ。通常,在给定这些数据的另一个函数的情况下,这些数据的一个函数的条件期望值确实取决于θ,但上面给出的充分性的定义本身就意味着这个不成立。
  • 一个估计量的均方误差是它与待估计的参数θ的偏差的平方的期望值。

定理 编辑

均方误差版本 编辑

拉奥-布莱克韦尔定理的一个特例可以表述为:

拉奥-布莱克韦尔估计量的均方误差不超过原始估计量的均方误差。

换句话说,

 

除了上述定义,证明该定理所需的关键工具包括全期望公式和以下事实:对于任何随机变量Y,E(Y2)不会小于[E(Y)]2。这个不等式是琴生不等式的一个特例,尽管它也可以立即从经常提到的事实得出

 

更精确地说,拉奥-布莱克韦尔估计量的均方误差有以下分解形式[4]

 

由于   ,因此拉奥-布莱克韦尔定理可以立即得出。

凸损失泛化 编辑

拉奥-布莱克韦尔定理的更一般版本涉及到“期望损失”或风险函数

 

其中“损失函数”L可以是任何凸函数。如果损失函数是二次可微的,例如均方误差的情况,那么我们可以得到更精确的不等式[4]

 

性质 编辑

改进估计量无偏当且仅当原始估计量无偏,这可以立即通过使用全期望公式得到。无论使用偏倚还是无偏估计量,该定理都成立。

改进后的估计量是无偏的当且仅当原始估计量是无偏的,这可以通过使用总期望定律立即看出。无论使用有偏估计量还是无偏估计量,该定理都成立。

这个定理看起来很弱,它仅仅表明拉奥-布莱克韦尔估计量不会比原始估计量更差。但在实践中,改进通常是巨大的,因为使用充分统计量来改进估计量可以减少估计误差,提高估计的准确性。[5]

例子 编辑

电话呼叫以平均每分钟λ个的泊松过程到达交换机板。这个速率是不可观测的,但是我们可以观测到在n个连续的一分钟时间段内到达的电话数量X1, ..., Xn。现在我们希望估计在下一个一分钟时间段内没有电话呼叫的概率e−λ

一个极其粗略的估计量可以用来估计所需概率:

 

也就是说,如果在第一分钟内没有电话呼叫,则它会将此概率估计为1,否则估计值为0。尽管这个估计量的限制显而易见,但是通过对其进行拉奥-布莱克韦尔化处理得到的结果是一个非常好的估计量。

总和

 

可以很容易地证明,这个求和式是λ的一个充分统计量,即数据X1, ..., Xn的条件分布只通过这个求和式依赖于λ。因此,我们可以得到拉奥-布莱克韦尔估计量:

 

通过一些计算我们可以得出

 

由于在前n分钟内到达电话的平均数量为nλ,因此如果n很大,这个估计量有相当高的概率接近于

 

因此,δ1显然是最后一个数量的一个大大改进的估计量。事实上,由于Sn完全的而δ0是无偏的,根据Lehmann–Scheffé定理​(英语),δ1是唯一的最小方差无偏估计量。

幂等性 编辑

拉奥-布莱克韦尔化是一个幂等操作。使用它来改进已经改进的估计器不会获得进一步的改进,而只会返回相同的改进后的估计器作为输出。

完全性和 Lehmann–Scheffé 最小方差 编辑

如果条件统计量既是完全的又是充分的,并且起始估计量是无偏的,则拉奥-布莱克韦尔估计量是唯一的“最佳无偏估计量”:参见Lehmann-Scheffé 定理。

Galili Meilijson 2016年提供了一个可改进的拉奥-布莱克韦尔改进的例子,当使用一个不完全的最小充分统计量时。假设 是从比例均匀分布  的随机样本,其中未知均值为  ,已知设计参数 。在寻找 的“最佳”可能无偏估计器时,自然而然地考虑 作为初始(粗糙的)无偏估计器,然后尝试改进它。由于 不是由 确定的 的最小充分统计量(其中  ),因此可以使用拉奥-布莱克韦尔定理改进如下:

 

但是,可以证明以下无偏估计量具有较低的方差:

 

事实上,当使用以下估算量时,它甚至可以进一步改进:

 

该模型是一个比例参数模型​(英语),可以导出对于不变损失函数的最优不变估计量。 [6]

另见 编辑

  • 巴苏定理—完全充分和辅助统计的另一个结果

参考 编辑

  1. ^ Blackwell, D. Conditional expectation and unbiased sequential estimation. Annals of Mathematical Statistics. 1947, 18 (1): 105–110. MR 0019903. Zbl 0033.07603. doi:10.1214/aoms/1177730497 . 
  2. ^ Kolmogorov, A. N. Unbiased estimates. Izvestiya Akad. Nauk SSSR. Ser. Mat. 1950, 14: 303–326. MR 0036479. 
  3. ^ Rao, C. Radhakrishna. Information and accuracy attainable in the estimation of statistical parameters. Bulletin of the Calcutta Mathematical Society. 1945, 37 (3): 81–91. 
  4. ^ 4.0 4.1 J. G. Liao & A. Berg. Sharpening Jensen's Inequality. The American Statistician. 22 June 2018, 73 (3): 278–281. S2CID 88515366. arXiv:1707.08644 . doi:10.1080/00031305.2017.1419145. 
  5. ^ Carpenter, Bob. Rao-Blackwellization and discrete parameters in Stan. Statistical Modeling, Causal Inference, and Social Science. January 20, 2020 [September 13, 2021]. (原始内容于2023-03-07). The Rao-Blackwell theorem states that the marginalization approach has variance less than or equal to the direct approach. In practice, this difference can be enormous. 
  6. ^ Taraldsen, Gunnar. Micha Mandel (2020), "The Scaled Uniform Model Revisited," The American Statistician, 74:1, 98–100: Comment. The American Statistician. 2020, 74 (3): 315. ISSN 0003-1305. S2CID 219493070. doi:10.1080/00031305.2020.1769727. 

外部链接 编辑

拉奥, 布莱克韦尔定理, 在统计学中, blackwell, theorem, 有时称为, 柯尔莫果洛夫定理, 是一项结果, 它描述了如何将任意粗糙的估计量转化为通过均方误差准则或任何一种类似准则优化的估计量, 定理指出, 如果g, 是某个参数θ的任何一种估计量, 那么在给定充分统计量t, 的条件下, 的条件期望通常比g, 本身更好地估计了θ, 而且从来不会更糟, 有时, 可以非常容易地构造一个非常粗糙的估计量g, 然后评估条件期望值, 以获得在各种意义上都是最优的估计量, 其中, 充分统计量的意义是其包含数据样本. 在统计学中 拉奥 布莱克韦尔定理 Rao Blackwell theorem 有时称为拉奥 布莱克韦尔定理 柯尔莫果洛夫定理 是一项结果 它描述了如何将任意粗糙的估计量转化为通过均方误差准则或任何一种类似准则优化的估计量 定理指出 如果g X 是某个参数8的任何一种估计量 那么在给定充分统计量T X 的条件下 g X 的条件期望通常比g X 本身更好地估计了8 而且从来不会更糟 有时 可以非常容易地构造一个非常粗糙的估计量g X 然后评估条件期望值 以获得在各种意义上都是最优的估计量 其中 充分统计量的意义是其包含数据样本中所有与待估计参数相关的信息 且不含任何冗余信息 这个定理是以卡利安普迪 拉达克里希纳 拉奥和戴维 布莱克韦尔命名的 使用拉奥 布莱克韦尔定理来转化一个估计量的过程可以被称为拉奥 布莱克韦尔化 转化后的估计量被称为拉奥 布莱克韦尔估计量 1 2 3 目录 1 定义 2 定理 2 1 均方误差版本 2 2 凸损失泛化 3 性质 4 例子 5 幂等性 6 完全性和 Lehmann Scheffe 最小方差 7 另见 8 参考 9 外部链接定义 编辑一个估计量d X 是一个可观测的随机变量 即统计量 用于估计某些不可观测的量 例如 我们可能无法观测到X大学所有男学生的平均身高 但我们可以观测40个学生的身高 这40个学生的平均身高 样本平均数 可以用作估计不可观测的 总体平均数 的估计量 一个充分统计量T X 是从数据X计算出来的一个统计量 用于估计某个参数8 而除了这个统计量以外 从数据X中计算出来的其他统计量不会提供关于8的任何额外信息 它被定义为一个可观测的随机变量 使得给定T X 的条件概率分布不依赖于未观测到的参数8 例如整个数据样本的平均值或标准差等 在最常被引用的例子中 未观测到的 量是指参数 这些参数根据已知的概率分布族来对数据进行参数化 换句话说 对于参数8 一个充分统计量T X 是这样一个统计量 使得给定T X 的条件下 数据X的条件分布不依赖于参数8 dd 一个未观测量8的拉奥 布莱克韦尔估计量d1 X 是给定充分统计量T X 的条件下 某个估计量d X 的条件期望值E d X T X 我们把d X 称为 原始估计量 把d1 X 称为 改进估计量 改进估计量的重要性在于它是可观测的 即它不依赖于8 一般而言 给定这些数据中的一个函数的条件期望值 另一个函数的条件期望值会依赖于8 但是上述充分统计量的定义说明了这个条件期望值不会依赖于8 不可观测量8的拉奥 布莱克韦尔估计量d1 X 是给定充分统计量T X 的某个估计量 d X 的条件期望值E d X T X 将d X 称为 原始估计量 将 d1 X 称为 改进后的估计量 重要的是改进后的估计器是可观察的 即它不依赖于8 通常 在给定这些数据的另一个函数的情况下 这些数据的一个函数的条件期望值确实取决于8 但上面给出的充分性的定义本身就意味着这个不成立 一个估计量的均方误差是它与待估计的参数8的偏差的平方的期望值 定理 编辑均方误差版本 编辑 拉奥 布莱克韦尔定理的一个特例可以表述为 拉奥 布莱克韦尔估计量的均方误差不超过原始估计量的均方误差 换句话说 E d 1 X 8 2 E d X 8 2 displaystyle operatorname E delta 1 X theta 2 leq operatorname E delta X theta 2 nbsp 除了上述定义 证明该定理所需的关键工具包括全期望公式和以下事实 对于任何随机变量Y E Y2 不会小于 E Y 2 这个不等式是琴生不等式的一个特例 尽管它也可以立即从经常提到的事实得出 0 Var Y E Y E Y 2 E Y 2 E Y 2 displaystyle 0 leq operatorname Var Y operatorname E Y operatorname E Y 2 operatorname E Y 2 operatorname E Y 2 nbsp 更精确地说 拉奥 布莱克韦尔估计量的均方误差有以下分解形式 4 E d 1 X 8 2 E d X 8 2 E Var d X T X displaystyle operatorname E delta 1 X theta 2 operatorname E delta X theta 2 operatorname E operatorname Var delta X mid T X nbsp 由于 E Var d X T X 0 displaystyle operatorname E operatorname Var delta X mid T X geq 0 nbsp 因此拉奥 布莱克韦尔定理可以立即得出 凸损失泛化 编辑 拉奥 布莱克韦尔定理的更一般版本涉及到 期望损失 或风险函数 E L d 1 X E L d X displaystyle operatorname E L delta 1 X leq operatorname E L delta X nbsp 其中 损失函数 L可以是任何凸函数 如果损失函数是二次可微的 例如均方误差的情况 那么我们可以得到更精确的不等式 4 E L d X E L d 1 X 1 2 E T inf x L x Var d X T displaystyle operatorname E L delta X operatorname E L delta 1 X geq frac 1 2 operatorname E T left inf x L x operatorname Var delta X mid T right nbsp 性质 编辑改进估计量无偏当且仅当原始估计量无偏 这可以立即通过使用全期望公式得到 无论使用偏倚还是无偏估计量 该定理都成立 改进后的估计量是无偏的当且仅当原始估计量是无偏的 这可以通过使用总期望定律立即看出 无论使用有偏估计量还是无偏估计量 该定理都成立 这个定理看起来很弱 它仅仅表明拉奥 布莱克韦尔估计量不会比原始估计量更差 但在实践中 改进通常是巨大的 因为使用充分统计量来改进估计量可以减少估计误差 提高估计的准确性 5 例子 编辑电话呼叫以平均每分钟l个的泊松过程到达交换机板 这个速率是不可观测的 但是我们可以观测到在n个连续的一分钟时间段内到达的电话数量X1 Xn 现在我们希望估计在下一个一分钟时间段内没有电话呼叫的概率e l 一个极其粗略的估计量可以用来估计所需概率 d 0 1 if X 1 0 0 otherwise displaystyle delta 0 left begin matrix 1 amp text if X 1 0 0 amp text otherwise end matrix right nbsp 也就是说 如果在第一分钟内没有电话呼叫 则它会将此概率估计为1 否则估计值为0 尽管这个估计量的限制显而易见 但是通过对其进行拉奥 布莱克韦尔化处理得到的结果是一个非常好的估计量 总和 S n i 1 n X i X 1 X n displaystyle S n sum i 1 n X i X 1 cdots X n nbsp 可以很容易地证明 这个求和式是l的一个充分统计量 即数据X1 Xn的条件分布只通过这个求和式依赖于l 因此 我们可以得到拉奥 布莱克韦尔估计量 d 1 E d 0 S n s n displaystyle delta 1 operatorname E delta 0 mid S n s n nbsp 通过一些计算我们可以得出 d 1 E 1 X 1 0 i 1 n X i s n P X 1 0 i 1 n X i s n P X 1 0 i 2 n X i s n P i 1 n X i s n 1 e l n 1 l s n e n 1 l s n n l s n e n l s n 1 n 1 l s n e n l s n s n n l s n e n l 1 1 n s n displaystyle begin aligned delta 1 amp operatorname E left mathbf 1 X 1 0 Bigg sum i 1 n X i s n right amp P left X 1 0 Bigg sum i 1 n X i s n right amp P left X 1 0 sum i 2 n X i s n right times P left sum i 1 n X i s n right 1 amp e lambda frac left n 1 lambda right s n e n 1 lambda s n times left frac n lambda s n e n lambda s n right 1 amp frac left n 1 lambda right s n e n lambda s n times frac s n n lambda s n e n lambda amp left 1 frac 1 n right s n end aligned nbsp 由于在前n分钟内到达电话的平均数量为nl 因此如果n很大 这个估计量有相当高的概率接近于 1 1 n n l e l displaystyle left 1 1 over n right n lambda approx e lambda nbsp 因此 d1显然是最后一个数量的一个大大改进的估计量 事实上 由于Sn是完全的而d0是无偏的 根据Lehmann Scheffe定理 英语 d1是唯一的最小方差无偏估计量 幂等性 编辑拉奥 布莱克韦尔化是一个幂等操作 使用它来改进已经改进的估计器不会获得进一步的改进 而只会返回相同的改进后的估计器作为输出 完全性和 Lehmann Scheffe 最小方差 编辑如果条件统计量既是完全的又是充分的 并且起始估计量是无偏的 则拉奥 布莱克韦尔估计量是唯一的 最佳无偏估计量 参见Lehmann Scheffe 定理 Galili Meilijson 2016年提供了一个可改进的拉奥 布莱克韦尔改进的例子 当使用一个不完全的最小充分统计量时 假设X 1 X n displaystyle X 1 ldots X n nbsp 是从比例均匀分布X U 1 k 8 1 k 8 displaystyle X sim U left 1 k theta 1 k theta right nbsp 的随机样本 其中未知均值为 E X 8 displaystyle E X theta nbsp 已知设计参数k 0 1 displaystyle k in 0 1 nbsp 在寻找8 displaystyle theta nbsp 的 最佳 可能无偏估计器时 自然而然地考虑X 1 displaystyle X 1 nbsp 作为初始 粗糙的 无偏估计器 然后尝试改进它 由于X 1 displaystyle X 1 nbsp 不是由T X 1 X n displaystyle T left X 1 X n right nbsp 确定的8 displaystyle theta nbsp 的最小充分统计量 其中X 1 min X i displaystyle X 1 min X i nbsp 且X n max X i displaystyle X n max X i nbsp 因此可以使用拉奥 布莱克韦尔定理改进如下 8 R B E 8 X 1 X 1 X n X 1 X n 2 displaystyle hat theta RB E theta left X 1 X 1 X n right frac X 1 X n 2 nbsp 但是 可以证明以下无偏估计量具有较低的方差 8 L V 1 2 k 2 n 1 n 1 1 1 k X 1 1 k X n displaystyle hat theta LV frac 1 2 left k 2 frac n 1 n 1 1 right left 1 k X 1 1 k X n right nbsp 事实上 当使用以下估算量时 它甚至可以进一步改进 8 B A Y E S n 1 n 1 X 1 1 k X n 1 k 1 X 1 1 k X n 1 k n 1 1 X n 1 k displaystyle hat theta BAYES frac n 1 n left 1 frac frac left frac X 1 1 k right left frac X n 1 k right 1 left frac left frac X 1 1 k right left frac X n 1 k right right n 1 1 right frac X n 1 k nbsp 该模型是一个比例参数模型 英语 可以导出对于不变损失函数的最优不变估计量 6 另见 编辑巴苏定理 完全充分和辅助统计的另一个结果参考 编辑 Blackwell D Conditional expectation and unbiased sequential estimation Annals of Mathematical Statistics 1947 18 1 105 110 MR 0019903 Zbl 0033 07603 doi 10 1214 aoms 1177730497 nbsp Kolmogorov A N Unbiased estimates Izvestiya Akad Nauk SSSR Ser Mat 1950 14 303 326 MR 0036479 Rao C Radhakrishna Information and accuracy attainable in the estimation of statistical parameters Bulletin of the Calcutta Mathematical Society 1945 37 3 81 91 4 0 4 1 J G Liao amp A Berg Sharpening Jensen s Inequality The American Statistician 22 June 2018 73 3 278 281 S2CID 88515366 arXiv 1707 08644 nbsp doi 10 1080 00031305 2017 1419145 Carpenter Bob Rao Blackwellization and discrete parameters in Stan Statistical Modeling Causal Inference and Social Science January 20 2020 September 13 2021 原始内容存档于2023 03 07 The Rao Blackwell theorem states that the marginalization approach has variance less than or equal to the direct approach In practice this difference can be enormous Taraldsen Gunnar Micha Mandel 2020 The Scaled Uniform Model Revisited The American Statistician 74 1 98 100 Comment The American Statistician 2020 74 3 315 ISSN 0003 1305 S2CID 219493070 doi 10 1080 00031305 2020 1769727 外部链接 编辑Nikulin M S Rao Blackwell Kolmogorov theorem Hazewinkel Michiel 编 数学百科全书 Springer 2001 ISBN 978 1 55608 010 4 取自 https zh wikipedia org w index php title 拉奥 布莱克韦尔定理 amp oldid 77093989, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。