fbpx
维基百科

U-统计量

U-统计量是统计学中一类特定的、具有对称性的统计量,它在估计理论中扮演重要角色。名称中的“ U”为无偏(unbiased)之意。在初等统计学中,U-统计量与最小方差无偏估计量 (UMVUE) 有密切联系。

U-统计量的一个重要性是,对概率分布来说,其可估计参数的最小方差无偏估计量 是一个U-统计量。 [1][2] 因此通过研究U-统计量的一般性质,可以系统地了解这些估计量的统计学性质。[3]

U-统计量在非参数统计中尤其重要,不少用于估计和统计检验的统计量,在形式上都是U-统计量。U-统计量通常具有良好的渐近正态性,这方便了基于它的统计推断。 近年来,U-统计量在研究复杂的随机过程随机网络类型数据的随机性质方面,发挥了作用。[4][5][6]

目前,统计学家们对U-统计量性质的了解,几乎全都基于Hoeffding发表于1948年的经典论文[7]。在这篇论文里,Hoeffding给出了U-统计量最重要的性质——它的ANOVA分解

定义 编辑

定义   为一个函数,其具有对称性,即交换任意   的位置,  的值保持不变。对随机变量   ,基于   的U-统计量定义如下:

 

这里,  称为U-统计量的核函数(Kernel function),而核函数的维数   称为该U-统计量的度(degree)[8]

两样本U-统计量 编辑

定义   为一个函数,其对    分别具有对称性,即交换任意   的位置或交换任意   的位置,  的值保持不变(但不能随意交换   )。对随机变量   ,基于   的两样本U-统计量定义如下:

 

目前在机器学习中,最常见的情形是  ,例如能量距离和最大平均差异(MMD)。

Hoeffding的ANOVA分解定理 编辑

定理表述 编辑

Hoeffding的ANOVA分解定理是现代U-统计量理论的基础。[9]为表述该定理,定义: 。 对所有   ,定义投影函数

 

然后定义正交化投影函数

  ,等等,每一个   都定义为相应的  减去之前定义过的所有  ,直至最后一个函数  

 

Hoeffding的ANOVA分解定理的内容是:

 

分解项的性质 编辑

所有的正交化投影函数   都满足:

 

因此,所有的分解项之间是互不相关的[9],并且度为   的分解项之平均的阶为  .

在大多数应用中,一个U-统计量的ANOVA分解中最重要的是前一项或前两项。根据分解项的性质,可以得到如下的两项ANOVA分解式:

 

定理应用 编辑

  • U-统计量的渐近正态性是Hoeffding的ANOVA分解定理的简单推论。具体而言,有如下结论:记   ,则:
 

同时,分解定理也指出了应该如何正确地一阶逼近U-统计量的方差,和对其进行t-标准化

  • 由该定理出发,在不同强度的假设条件下,可以用一项或两项的Edgeworth展开来高精度地逼近U-统计量的分布。[8][10][11][12]


具体例子 编辑

  • 度为1的例子:令   ,则U-统计量  是样本均值。
  • 度为2的例子:令   ,则U-统计量
 

称为“平均成对偏差”。

  • 另一个度为2的例子:令   ,则U-统计量有如下变形:
 

这正是人们熟知的样本方差  

  • 度为3的例子:样本偏度定义中的分子项:
 

展开后可以写成一个U-统计量。

  • 在机器学习中,用核函数方法进行一样本或两样本非参数统计检验时,检验统计量是一个能量距离或最大平均差异(MMD),两者均为U-统计量或表达式包含两样本U-统计量。[13][14]

参见 编辑

参考文献 编辑

  1. ^ Cox & Hinkley (1974),p. 200, p. 258
  2. ^ Hoeffding (1948), between Eq's(4.3),(4.4)
  3. ^ U-Statistics : Theory and Practice.. Routledge. ISBN 9781351405850. 
  4. ^ Page 508 in Koroljuk, V. S.; Borovskich, Yu. V. Theory of U-statistics. Mathematics and its Applications 273 Translated by P. V. Malyshev and D. V. Malyshev from the 1989 Russian original. Dordrecht: Kluwer Academic Publishers Group. 1994: x+552. ISBN 0-7923-2608-3. MR 1472486. 
  5. ^ Pages 381–382 in Borovskikh, Yu. V. U-statistics in Banach spaces. Utrecht: VSP. 1996: xii+420. ISBN 90-6764-200-2. MR 1419498. 
  6. ^ Page xii in Kwapień, Stanisƚaw; Woyczyński, Wojbor A. Random series and stochastic integrals: Single and multiple. Probability and its Applications. Boston, MA: Birkhäuser Boston, Inc. 1992: xvi+360. ISBN 0-8176-3572-6. MR 1167198. 
  7. ^ Hoeffding, Wassily. A Class of Statistics with Asymptotically Normal Distribution. The Annals of Mathematical Statistics. 1948-09, 19 (3): 293–325. doi:10.1214/aoms/1177730196. 
  8. ^ 8.0 8.1 Bickel, P. J.; Gotze, F.; van Zwet, W. R. The Edgeworth Expansion for $U$-Statistics of Degree Two. The Annals of Statistics. 1986-12, 14 (4): 1463–1484. doi:10.1214/aos/1176350170. 
  9. ^ 9.0 9.1 Maesono, Yoshihiko. Edgeworth expansions of a studentized U-statistic and a jackknife estimator of variance. Journal of Statistical Planning and Inference. 1997-05, 61 (1): 61–84. doi:10.1016/S0378-3758(96)00148-6. 
  10. ^ Putter, Hein; van Zwet, Willem R. Empirical Edgeworth expansions for symmetric statistics. The Annals of Statistics. 1998-08, 26 (4): 1540–1569. doi:10.1214/aos/1024691253. 
  11. ^ Jing, Bing-Yi; Wang, Qiying. Edgeworth expansion for U -statistics under minimal conditions. The Annals of Statistics. 2003-08, 31 (4): 1376–1391. doi:10.1214/aos/1059655916. 
  12. ^ Yuan Zhang; Dong Xia. Edgeworth expansions for network moments. The Annals of Statistics. 2022-04-01, 50 (2): 726–753. doi:10.1214/21-AOS2125. 
  13. ^ Székely, Gábor J.; Rizzo, Maria L. Energy statistics: A class of statistics based on distances. Journal of Statistical Planning and Inference. 2013-08, 143 (8): 1249–1272. doi:10.1016/j.jspi.2013.03.018. 
  14. ^ Gretton, Arthur; Borgwardt, Karsten M.; Rasch, Malte J.; Schölkopf, Bernhard; Smola, Alexander. A Kernel Two-Sample Test. Journal of Machine Learning Research. 2012, 13 (25): 723–773 [2020-06-26]. (原始内容于2022-02-04). 

统计量, 是统计学中一类特定的, 具有对称性的统计量, 它在估计理论中扮演重要角色, 名称中的, 为无偏, unbiased, 之意, 在初等统计学中, 与最小方差无偏估计量, umvue, 有密切联系, 的一个重要性是, 对概率分布来说, 其可估计参数的最小方差无偏估计量, 是一个, 因此通过研究的一般性质, 可以系统地了解这些估计量的统计学性质, 在非参数统计中尤其重要, 不少用于估计和统计检验的统计量, 在形式上都是, 通常具有良好的渐近正态性, 这方便了基于它的统计推断, 近年来, 在研究复杂的随机过程和随. U 统计量是统计学中一类特定的 具有对称性的统计量 它在估计理论中扮演重要角色 名称中的 U 为无偏 unbiased 之意 在初等统计学中 U 统计量与最小方差无偏估计量 UMVUE 有密切联系 U 统计量的一个重要性是 对概率分布来说 其可估计参数的最小方差无偏估计量 是一个U 统计量 1 2 因此通过研究U 统计量的一般性质 可以系统地了解这些估计量的统计学性质 3 U 统计量在非参数统计中尤其重要 不少用于估计和统计检验的统计量 在形式上都是U 统计量 U 统计量通常具有良好的渐近正态性 这方便了基于它的统计推断 近年来 U 统计量在研究复杂的随机过程和随机网络类型数据的随机性质方面 发挥了作用 4 5 6 目前 统计学家们对U 统计量性质的了解 几乎全都基于Hoeffding发表于1948年的经典论文 7 在这篇论文里 Hoeffding给出了U 统计量最重要的性质 它的ANOVA分解 目录 1 定义 1 1 两样本U 统计量 2 Hoeffding的ANOVA分解定理 2 1 定理表述 2 2 分解项的性质 2 3 定理应用 3 具体例子 4 参见 5 参考文献定义 编辑定义 h x 1 x r R r R displaystyle h x 1 ldots x r mathbb R r to mathbb R nbsp 为一个函数 其具有对称性 即交换任意 x i x j displaystyle x i x j nbsp 的位置 h displaystyle h nbsp 的值保持不变 对随机变量 X 1 X n displaystyle X 1 ldots X n nbsp 基于 h displaystyle h nbsp 的U 统计量定义如下 U n 1 n r 1 i 1 lt lt i r n h X i 1 X i r displaystyle U n frac 1 binom n r sum 1 leq i 1 lt cdots lt i r leq n h X i 1 ldots X i r nbsp 这里 h displaystyle h cdot nbsp 称为U 统计量的核函数 Kernel function 而核函数的维数 r displaystyle r nbsp 称为该U 统计量的度 degree 8 两样本U 统计量 编辑 定义 h x 1 x r y 1 y s R r s R displaystyle h x 1 ldots x r y 1 ldots y s mathbb R r s to mathbb R nbsp 为一个函数 其对 X displaystyle X nbsp 和 Y displaystyle Y nbsp 分别具有对称性 即交换任意 x i 1 x i 2 displaystyle x i 1 x i 2 nbsp 的位置或交换任意 y j 1 y j 2 displaystyle y j 1 y j 2 nbsp 的位置 h displaystyle h nbsp 的值保持不变 但不能随意交换 x i y j displaystyle x i y j nbsp 对随机变量 X 1 X m Y 1 Y n displaystyle X 1 ldots X m Y 1 ldots Y n nbsp 基于 h displaystyle h nbsp 的两样本U 统计量定义如下 U m n 1 m r n s 1 i 1 lt lt i r m 1 j 1 lt lt j s n h X 1 X r Y 1 Y s displaystyle U m n frac 1 binom m r binom n s sum 1 leq i 1 lt cdots lt i r leq m sum 1 leq j 1 lt cdots lt j s leq n h X 1 ldots X r Y 1 ldots Y s nbsp 目前在机器学习中 最常见的情形是 r s 1 displaystyle r s 1 nbsp 例如能量距离和最大平均差异 MMD Hoeffding的ANOVA分解定理 编辑定理表述 编辑 Hoeffding的ANOVA分解定理是现代U 统计量理论的基础 9 为表述该定理 定义 m E h X 1 X r displaystyle mu mathbb E h X 1 ldots X r nbsp 对所有 1 k r displaystyle 1 leq k leq r nbsp 定义投影函数 a k x 1 x k E h X 1 X r X 1 x 1 X k x k m displaystyle a k x 1 ldots x k mathbb E h X 1 ldots X r X 1 x 1 ldots X k x k mu nbsp 然后定义正交化投影函数 g 1 x 1 a 1 x 1 displaystyle g 1 x 1 a 1 x 1 nbsp g 2 x 1 x 2 a 2 x 1 x 2 g 1 x 1 g 2 x 2 displaystyle g 2 x 1 x 2 a 2 x 1 x 2 g 1 x 1 g 2 x 2 nbsp 等等 每一个 g k displaystyle g k nbsp 都定义为相应的 a k displaystyle a k nbsp 减去之前定义过的所有 g 1 g k 1 displaystyle g 1 ldots g k 1 nbsp 直至最后一个函数 g r displaystyle g r nbsp g r x 1 x r a r x 1 x r j 1 r 1 1 i 1 lt lt i j r g j x i 1 x i j displaystyle g r x 1 ldots x r a r x 1 ldots x r sum j 1 r 1 sum 1 leq i 1 lt cdots lt i j leq r g j x i 1 ldots x i j nbsp Hoeffding的ANOVA分解定理的内容是 U n m n r 1 k 1 r n k r k 1 i 1 lt lt i k n g k X i 1 X i k displaystyle U n mu binom n r 1 sum k 1 r binom n k r k cdot sum 1 leq i 1 lt cdots lt i k leq n g k X i 1 ldots X i k nbsp 分解项的性质 编辑 所有的正交化投影函数 g k displaystyle g k nbsp 都满足 E g k X 1 X k X 1 X k 1 0 displaystyle mathbb E g k X 1 ldots X k X 1 ldots X k 1 0 nbsp 因此 所有的分解项之间是互不相关的 9 并且度为 k displaystyle k nbsp 的分解项之平均的阶为 O p n k 2 displaystyle O p left n k 2 right nbsp 在大多数应用中 一个U 统计量的ANOVA分解中最重要的是前一项或前两项 根据分解项的性质 可以得到如下的两项ANOVA分解式 U n m r n i 1 n g 1 X i r r 1 n n 1 1 i lt j n g 2 X i X j O p n 3 2 displaystyle U n mu frac r n sum i 1 n g 1 X i frac r r 1 n n 1 sum 1 leq i lt j leq n g 2 X i X j O p n 3 2 nbsp 定理应用 编辑 U 统计量的渐近正态性是Hoeffding的ANOVA分解定理的简单推论 具体而言 有如下结论 记 3 1 2 V a r g 1 X 1 displaystyle xi 1 2 mathrm Var g 1 X 1 nbsp 则 n 1 2 U n m d N 0 r 2 3 1 2 displaystyle n 1 2 left U n mu right stackrel d to N left 0 r 2 xi 1 2 right nbsp 同时 分解定理也指出了应该如何正确地一阶逼近U 统计量的方差 和对其进行t 标准化 由该定理出发 在不同强度的假设条件下 可以用一项或两项的Edgeworth展开来高精度地逼近U 统计量的分布 8 10 11 12 具体例子 编辑度为1的例子 令 h x x displaystyle h x x nbsp 则U 统计量 1 n i 1 n h X i X n displaystyle frac 1 n sum i 1 n h X i bar X n nbsp 是样本均值 度为2的例子 令 h x 1 x 2 x 1 x 2 displaystyle h x 1 x 2 x 1 x 2 nbsp 则U 统计量 1 n 2 1 i lt j n h X i X j displaystyle frac 1 binom n 2 sum 1 leq i lt j leq n h X i X j nbsp 称为 平均成对偏差 另一个度为2的例子 令 h x 1 x 2 x 1 x 2 2 2 displaystyle h x 1 x 2 x 1 x 2 2 2 nbsp 则U 统计量有如下变形 1 n 2 1 i lt j n h X i X j X i X 2 n 1 displaystyle frac 1 binom n 2 sum 1 leq i lt j leq n h X i X j sum X i bar X 2 n 1 nbsp 这正是人们熟知的样本方差 S n 2 displaystyle S n 2 nbsp 度为3的例子 样本偏度定义中的分子项 1 n i 1 n X i X 3 displaystyle frac 1 n sum i 1 n X i bar X 3 nbsp 展开后可以写成一个U 统计量 在机器学习中 用核函数方法进行一样本或两样本非参数统计检验时 检验统计量是一个能量距离或最大平均差异 MMD 两者均为U 统计量或表达式包含两样本U 统计量 13 14 参见 编辑V 统计量参考文献 编辑 Cox amp Hinkley 1974 p 200 p 258 Hoeffding 1948 between Eq s 4 3 4 4 U Statistics Theory and Practice Routledge ISBN 9781351405850 Page 508 in Koroljuk V S Borovskich Yu V Theory of U statistics Mathematics and its Applications 273 Translated by P V Malyshev and D V Malyshev from the 1989 Russian original Dordrecht Kluwer Academic Publishers Group 1994 x 552 ISBN 0 7923 2608 3 MR 1472486 Pages 381 382 in Borovskikh Yu V U statistics in Banach spaces Utrecht VSP 1996 xii 420 ISBN 90 6764 200 2 MR 1419498 Page xii in Kwapien Stanisƚaw Woyczynski Wojbor A Random series and stochastic integrals Single and multiple Probability and its Applications Boston MA Birkhauser Boston Inc 1992 xvi 360 ISBN 0 8176 3572 6 MR 1167198 Hoeffding Wassily A Class of Statistics with Asymptotically Normal Distribution The Annals of Mathematical Statistics 1948 09 19 3 293 325 doi 10 1214 aoms 1177730196 8 0 8 1 Bickel P J Gotze F van Zwet W R The Edgeworth Expansion for U Statistics of Degree Two The Annals of Statistics 1986 12 14 4 1463 1484 doi 10 1214 aos 1176350170 9 0 9 1 Maesono Yoshihiko Edgeworth expansions of a studentized U statistic and a jackknife estimator of variance Journal of Statistical Planning and Inference 1997 05 61 1 61 84 doi 10 1016 S0378 3758 96 00148 6 Putter Hein van Zwet Willem R Empirical Edgeworth expansions for symmetric statistics The Annals of Statistics 1998 08 26 4 1540 1569 doi 10 1214 aos 1024691253 Jing Bing Yi Wang Qiying Edgeworth expansion for U statistics under minimal conditions The Annals of Statistics 2003 08 31 4 1376 1391 doi 10 1214 aos 1059655916 Yuan Zhang Dong Xia Edgeworth expansions for network moments The Annals of Statistics 2022 04 01 50 2 726 753 doi 10 1214 21 AOS2125 使用 accessdate 需要含有 url 帮助 Szekely Gabor J Rizzo Maria L Energy statistics A class of statistics based on distances Journal of Statistical Planning and Inference 2013 08 143 8 1249 1272 doi 10 1016 j jspi 2013 03 018 Gretton Arthur Borgwardt Karsten M Rasch Malte J Scholkopf Bernhard Smola Alexander A Kernel Two Sample Test Journal of Machine Learning Research 2012 13 25 723 773 2020 06 26 原始内容存档于2022 02 04 取自 https zh wikipedia org w index php title U 统计量 amp oldid 71555025, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。