fbpx
维基百科

泊松回归

统计学上,泊松回归(英語:Poisson regression)是用来为计数资料英语Count data列联表英语Contingency table建模的一种回归分析。泊松回归假设因变量(英语:response variable)Y是泊松分布,并假设它期望值对数可由一组未知参数进行线性表达。当其用于列联表分析时,泊松回归模型也被称作对数-线性模型。

泊松回归模型是广义线性模型(GLM)的一种,以对数变化作为连接函数(link function),该模型的假设之一是其被解释变量服从泊松分布。

泊松回归模型

  代表由一组相互独立的变量组成的向量,其泊松回归的模型形式为:

    .

亦可简洁表示为: 

此处,  是 n+1维的向量,由n个独立变量(自变量向量)一个常向量(元素取值全为1)构成,用一个θ 代表第一个表达式当中的 αβ

因此,当已知泊松回归模型当中的 θ和解释变量  , 其满足泊松分布的被解释变量的期望值可以由下式来预测:

 

Yi 是被解释变量的观测值,相应的解释变量为 xi ,可由极大似然估计(MLE)的方法来估计参数θ。 极大似然估计不能通过解析表达式获得解析解,是由其对数似然函数为凸函数的特性,可通过Newton–Raphson或其他基于梯度下降的思想方法来进行参数估计。

极大似然估计

如上所述,已知泊松回归模型当中的 θ和解释变量  , 其回归表达式为:

 ,

泊松分布的概率密度函数为:

 

现已知解释变量的观测值为由 m个向量组成  , 对应 m 个被解释变量的观测值, . 若同时已知θ, 则该组观测值所对应的联合概率可由下式表达:


 


极大似然方法估计 θ的核心思想是,去找到能使得基于当前观测值的联合概率尽可能达到最大的θ。(可理解为:变量的取值当前观测值,与取值为其他任何数值相比,是发生概率最高的事件)。 既然目标是寻找到最优的θ,可以先将上式的等号左边简单表达为关于θ 的表达式:


 .


注意等号右边的表达式并未改写,但通常难于付诸计算,因而采用其对数变化后的表达式( log-likelihood)即:


 .


由于 θ 仅出现在似然函数的前两项,因而在极大化似然函数的运算过程中,可以只考虑前两项。可以删去第三项yi!,待优化的似然函数可以简洁表达为:


 .


为了找到极大值,需要求解方程:


 

可以通过对其似然函数取负值 (negative log-likelihood),  是一个凸函数, 标准的凸优化方法可以考虑来求解 θ的最优值。统一的方法是Newton-Raphson 与Iterative Weighted Least Square(IWLS)算法。 给θ一组初始值,IWLS 是通过多次迭代更新直到θ 收敛。

泊松回归的应用

泊松回归常用于被解释变量为计数(Count)形式时,包括事件发生的次数,比如:客服中心接到的电话次数。其满足相互独立的假设。在此例子中,即为:拨打客服电话的人们之间不存在相互关联。不会因为甲拨打了客服,而影响乙拨打的可能性。但在建模时,需要考虑统计该事件发生的时期,比如目标变量统计的是一天接到的电话次数,还是一个星期,或者一个月。这个时期的数据作为回归模型中的抵消值,在下面解释。

"曝光量"(Exposure) 与 偏移量 (trade off)

泊松分布也可以适用于比率数据,即事件发生次数与其测量时间或测量范围的比值。比如生物学家测量某森林中树木种类的数目, 比率变量即为每平方千米的树木种类数。人口学家关注的是每个人口年(person-year)的人口死亡数。通常来说,比率变量表达的是单位时间内该事件发生的次数。这些例子中,平方米”,“人口年”这些变量就是所谓的"曝光量"(Exposure)。泊松回归中将其视为偏移量放在等式右边。

 

which implies

 

在R中运行广义线性模型时,可用offset()来指定表示“曝光量”的变量:

glm(y ~ offset(log(exposure)) + x, family=poisson(link=log) ) 

过度离势和零膨胀

服从泊松分布的变量,具有期望与方差相等的特征。若观测样本的方差远大于期望值的时,则认为存在过度离势,当前的模型不合理。其常见的原因是缺失重要的解释变量。解决该问题的方法,通常采用准似然估计(quasi-likelihood) 或者负二项分布来估计。[1][2]

泊松回归的另一个常见的问题是零膨胀zero-inflated model。标准的泊松分布其定义域为非负整数,被解释变量y取值为0的概率为:

 

但如果观测样本中添加大量的0,则取值为0的频率远大于理论概率,此时不适宜直接采用泊松回归。比如观测一组人在一小时内的吸烟情况,目标变量是每人吸了多少根烟。但当观测人群中有大量的非吸烟者,就会有过多的目标变量为0, 这就是零膨胀。可以采用其他的广义线性模型,比如负二项分布负二项分布来建模,或者零膨胀模型zero-inflated model 来解决。

參考文獻

  1. ^ Paternoster R, Brame R. Multiple routes to delinquency? A test of developmental and general theories of crime. Criminology. 1997, 35: 45–84. doi:10.1111/j.1745-9125.1997.tb00870.x. 
  2. ^ Berk R, MacDonald J. (PDF). Journal of Quantitative Criminology. 2008, 24 (3): 269–284. doi:10.1007/s10940-008-9048-4. (原始内容 (PDF)存档于2011-04-09). 

泊松回归, 在统计学上, 英語, poisson, regression, 是用来为计数资料, 英语, count, data, 和列联表, 英语, contingency, table, 建模的一种回归分析, 假设因变量, 英语, response, variable, y是泊松分布, 并假设它期望值的对数可由一组未知参数进行线性表达, 当其用于列联表分析时, 模型也被称作对数, 线性模型, 模型是广义线性模型, 的一种, 以对数变化作为连接函数, link, function, 该模型的假设之一是其被解释变量服. 在统计学上 泊松回归 英語 Poisson regression 是用来为计数资料 英语 Count data 和列联表 英语 Contingency table 建模的一种回归分析 泊松回归假设因变量 英语 response variable Y是泊松分布 并假设它期望值的对数可由一组未知参数进行线性表达 当其用于列联表分析时 泊松回归模型也被称作对数 线性模型 泊松回归模型是广义线性模型 GLM 的一种 以对数变化作为连接函数 link function 该模型的假设之一是其被解释变量服从泊松分布 目录 1 泊松回归模型 2 极大似然估计 3 泊松回归的应用 3 1 曝光量 Exposure 与 偏移量 trade off 3 2 过度离势和零膨胀 4 參考文獻泊松回归模型 编辑x R n displaystyle mathbf x in mathbb R n 代表由一组相互独立的变量组成的向量 其泊松回归的模型形式为 log E Y x a b x displaystyle log operatorname E Y mid mathbf x alpha mathbf beta mathbf x a R displaystyle alpha in mathbb R b R n displaystyle mathbf beta in mathbb R n 亦可简洁表示为 log E Y x 8 x displaystyle log operatorname E Y mid mathbf x boldsymbol theta mathbf x 此处 x displaystyle mathbf x 是 n 1维的向量 由n个独立变量 自变量向量 一个常向量 元素取值全为1 构成 用一个8 代表第一个表达式当中的 a 和 b 因此 当已知泊松回归模型当中的 8和解释变量 x displaystyle mathbf x 其满足泊松分布的被解释变量的期望值可以由下式来预测 E Y x e 8 x displaystyle operatorname E Y mid mathbf x e boldsymbol theta mathbf x Yi 是被解释变量的观测值 相应的解释变量为 xi 可由极大似然估计 MLE 的方法来估计参数8 极大似然估计不能通过解析表达式获得解析解 是由其对数似然函数为凸函数的特性 可通过Newton Raphson或其他基于梯度下降的思想方法来进行参数估计 极大似然估计 编辑如上所述 已知泊松回归模型当中的 8和解释变量 x displaystyle mathbf x 其回归表达式为 E Y x e 8 x displaystyle operatorname E Y mid x e theta x 泊松分布的概率密度函数为 p y x 8 E Y x y e E Y x y e y 8 x e e 8 x y displaystyle p y mid x theta frac operatorname E Y mid x y times e operatorname E Y mid x y frac e y theta x e e theta x y 现已知解释变量的观测值为由 m个向量组成 x i R n 1 i 1 m displaystyle x i in mathbb R n 1 i 1 ldots m 对应 m 个被解释变量的观测值 y 1 y m R displaystyle y 1 ldots y m in mathbb R 若同时已知8 则该组观测值所对应的联合概率可由下式表达 p y 1 y m x 1 x m 8 i 1 m e y i 8 x i e e 8 x i y i displaystyle p y 1 ldots y m mid x 1 ldots x m theta prod i 1 m frac e y i theta x i e e theta x i y i 极大似然方法估计 8的核心思想是 去找到能使得基于当前观测值的联合概率尽可能达到最大的8 可理解为 变量的取值当前观测值 与取值为其他任何数值相比 是发生概率最高的事件 既然目标是寻找到最优的8 可以先将上式的等号左边简单表达为关于8 的表达式 L 8 X Y i 1 m e y i 8 x i e e 8 x i y i displaystyle L theta mid X Y prod i 1 m frac e y i theta x i e e theta x i y i 注意等号右边的表达式并未改写 但通常难于付诸计算 因而采用其对数变化后的表达式 log likelihood 即 ℓ 8 X Y log L 8 X Y i 1 m y i 8 x i e 8 x i log y i displaystyle ell theta mid X Y log L theta mid X Y sum i 1 m left y i theta x i e theta x i log y i right 由于 8 仅出现在似然函数的前两项 因而在极大化似然函数的运算过程中 可以只考虑前两项 可以删去第三项yi 待优化的似然函数可以简洁表达为 ℓ 8 X Y i 1 m y i 8 x i e 8 x i displaystyle ell theta mid X Y sum i 1 m left y i theta x i e theta x i right 为了找到极大值 需要求解方程 ℓ 8 X Y 8 0 displaystyle frac partial ell theta mid X Y partial theta 0 可以通过对其似然函数取负值 negative log likelihood ℓ 8 X Y displaystyle ell theta mid X Y 是一个凸函数 标准的凸优化方法可以考虑来求解 8的最优值 统一的方法是Newton Raphson 与Iterative Weighted Least Square IWLS 算法 给8一组初始值 IWLS 是通过多次迭代更新直到8 收敛 泊松回归的应用 编辑泊松回归常用于被解释变量为计数 Count 形式时 包括事件发生的次数 比如 客服中心接到的电话次数 其满足相互独立的假设 在此例子中 即为 拨打客服电话的人们之间不存在相互关联 不会因为甲拨打了客服 而影响乙拨打的可能性 但在建模时 需要考虑统计该事件发生的时期 比如目标变量统计的是一天接到的电话次数 还是一个星期 或者一个月 这个时期的数据作为回归模型中的抵消值 在下面解释 曝光量 Exposure 与 偏移量 trade off 编辑 泊松分布也可以适用于比率数据 即事件发生次数与其测量时间或测量范围的比值 比如生物学家测量某森林中树木种类的数目 比率变量即为每平方千米的树木种类数 人口学家关注的是每个人口年 person year 的人口死亡数 通常来说 比率变量表达的是单位时间内该事件发生的次数 这些例子中 平方米 人口年 这些变量就是所谓的 曝光量 Exposure 泊松回归中将其视为偏移量放在等式右边 log E Y x exposure 8 x displaystyle log operatorname E Y mid x text exposure theta x which implies log E Y x log exposure log E Y x exposure 8 x displaystyle log operatorname E Y mid x log text exposure log left frac operatorname E Y mid x text exposure right theta x 在R中运行广义线性模型时 可用offset 来指定表示 曝光量 的变量 glm y offset log exposure x family poisson link log 过度离势和零膨胀 编辑 服从泊松分布的变量 具有期望与方差相等的特征 若观测样本的方差远大于期望值的时 则认为存在过度离势 当前的模型不合理 其常见的原因是缺失重要的解释变量 解决该问题的方法 通常采用准似然估计 quasi likelihood 或者负二项分布来估计 1 2 泊松回归的另一个常见的问题是零膨胀zero inflated model 标准的泊松分布其定义域为非负整数 被解释变量y取值为0的概率为 p y 0 x 8 e e 8 x displaystyle p y 0 mid x theta e e theta x 但如果观测样本中添加大量的0 则取值为0的频率远大于理论概率 此时不适宜直接采用泊松回归 比如观测一组人在一小时内的吸烟情况 目标变量是每人吸了多少根烟 但当观测人群中有大量的非吸烟者 就会有过多的目标变量为0 这就是零膨胀 可以采用其他的广义线性模型 比如负二项分布负二项分布来建模 或者零膨胀模型zero inflated model 来解决 參考文獻 编辑 Paternoster R Brame R Multiple routes to delinquency A test of developmental and general theories of crime Criminology 1997 35 45 84 doi 10 1111 j 1745 9125 1997 tb00870 x Berk R MacDonald J Overdispersion and Poisson regression PDF Journal of Quantitative Criminology 2008 24 3 269 284 doi 10 1007 s10940 008 9048 4 原始内容 PDF 存档于2011 04 09 取自 https zh wikipedia org w index php title 泊松回归 amp oldid 74773790, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。