fbpx
维基百科

廣義線性模型

統計學上,廣義線性模型(英語:generalized linear model,缩写作 GLM)是一種應用灵活的線性迴歸模型。该模型允许因变量的偏差分布有除了正态分布之外的其它分布。此模型假設實驗者所量測的隨機變數的分佈函數與實驗中系統性效應(即非隨機的效應)可經由一鏈結函數(link function)建立可解釋其相關性的函數。

約翰·內爾德英语John Nelder彼得·麥古拉英语Peter McCullagh在1989年出版,被視為廣義線性模式的代表性文獻中提綱挈領地說明了廣義線性模式的原理、計算(如最大概似估計量)及其實務應用。

概說 编辑

广义线性模型是普通最小二乘法(OLS)的扩展,在廣義線性模式中,假設每個資料的觀測值 來自某個指數族分佈。 該分佈的平均數   可由與該點獨立的X解釋:

 

其中  期望值 是由未知待估計參數 與已知變數 構成的線性估計式, 則為鏈結函數。

在此模式下, 的方差 可表示為:

 

一般假設 可視為一指數族隨機變數函數

未知參數 通常會以最大概似估計量, 殆最大概似估計量英语quasi-maximum likelihood, 或以貝氏方法來估計。

模式組成 编辑

廣義線性模式包含了以下主要部份:

  1. 來自指數族的分佈函數 
  2. 線性預測子  
  3. 鏈結函數 使得  

指數族 编辑

指數族隨機變數意指其具參數θτ機率密度函數, f (在論離散型隨機變數時,則為概率质量函数)可表為:

 

τ稱之為變異參數,通常用以解釋變異數。函數abcdh為已知。許多(不包含全部)型態的隨機變數可歸類為指數族

θ與該隨機變數的期望值有關。若a恆等函數,則稱該分佈屬於 正則型式。 另外,若b為恆等而τ已知,則θ稱為正則參數,其與期望值的關係可表為:

 

一般情形下,該分佈的變異數可表為:

 

線性預測子 编辑

線性預測子是用將獨立變數經由線性組合來尋模式所能提供之資訊的計量變數。符號η (希臘字母 "Η")通常用來表示線性預測子。它與資料的期望值的鏈結函數值有關(故稱"預測子")。

η表為未知參數β的線性組合(故為"線性")。X則為獨立變數所組合而成的观测矩陣。如此一來,η可表示為

 

X的元素通常為模式設計時可觀測的資料或為實驗時所得的數據。

鏈結函數 编辑

鏈結函數解釋了線性預測子與分佈期望值的關係。鏈結函數的選擇可視情形而定。通常只要符合鏈結函數的值域有包含分佈期望值的條件即可。

當使用具正則參數θ的分佈時,鏈結函數需符合XTYβ的充份統計量此一條件。這在θ與線性預測子的鏈結函數值相等時方成立。下面列出若干指數族分佈的典型鏈結函數及其反函數(有時稱為均值函數):

典型鏈結函數
Y的分佈 名稱 鏈結函數 均值函數
正态 恆等    
指數 倒數    
Gamma
逆高斯 二次倒數    
卜瓦松 自然對數    
二項式 Logit    
多項式

在指數分佈與Gamma分佈中,其典型鏈結函數的值域並不包含分佈均值,另外其線性預測子亦可能出現負值,此兩種分佈絕無均值為負的可能。當進行极大似然估计进行計算時需避免上述情形出現,這時便需要使用到非典型鏈結函數。

例子 编辑

一般线性模式 编辑

有些人可能會把一般線性模式和廣義線性模式給弄混了。一般線性模式可視為廣義線性模式的一個鏈結函數為恆等的特例。一般線性模式有著悠長的發展歷史。廣義線性模式具非恆等鏈結函數者有著漸近一致的結果。

線性迴歸 编辑

廣義線性模式最簡單的例子便是線性迴歸。此例中分佈函數為常態分佈而鏈結函數為恆等函數在變異數已知的條件下並符合正規式。 這個例子具有廣義線性模式罕有的极大似然估计解析解

二元数据 编辑

在討論二元反應結果(如沒有)時,通常以二項式分布建模。其期望值'μi通常解釋為樣本Yi發生事件的機率p

二項式分布有許多常用的鏈結函數,最常用的鏈結函數是logit

 

以此建模的廣義線性模式通常稱為logistic迴歸模式。

另外,任何連續型機率分配累積函數(CDF)的反函數皆可使用此模式,因為其值域為[0,1],包含了二項式分佈期望值的可能值域。常態機率分配累積函數 是一個廣受應用於probit模式的選擇。其鏈結函數為

 

有時恆等函數也會被用為二項式分佈的鏈結函數,其缺點為預測值可能超出合理範圍。經過若干修正可以避免上述問題,但會在解釋上造成困難。此模式通常適用於p接近0.5的情形。 此種建模很接近logit及probit的線性轉換,有時計量經濟學家會稱其為Harvard模式。

二元資料的廣義線性模式變異函數可寫為

 

其中變異參數 通常等於1,若非,則該模式稱為溢變異或殆二元。

計次資料 编辑

另一個常用的例子為用於計次的泊松分佈。此例的鏈結函數為自然對數,為正規鏈結。 變異數函數與均值成等比

 

其中變異參數 通常為1。 若非,此模式通常稱為溢變異或似卜瓦松。

參考文獻 编辑

  • Hastie, T. J.; Tibshirani, R. J. Generalized Additive Models. Chapman & Hall/CRC. 1990. ISBN 978-0-412-34390-2. 
  • Madsen, Henrik; Thyregod, Poul. Introduction to General and Generalized Linear Models. Chapman & Hall/CRC. 2011. ISBN 978-1-4200-9155-7. 
  • McCullagh, Peter; Nelder, John. Generalized Linear Models, Second Edition. Boca Raton: Chapman and Hall/CRC. 1989. ISBN 0-412-31760-5. 
  • Wood, Simon. Generalized Additive Models: An Introduction with R. Chapman & Hall/CRC. 2006. ISBN 1-58488-474-6. 

延伸閱讀 编辑

  • McCullagh, Peter; John Nelder英语John Nelder. Generalized Linear Models. London: Chapman and Hall. 1989. ISBN 0-412-31760-5. 
  • Dobson, A.J. Introduction to Generalized Linear Models, Second Edition. London: Chapman and Hall/CRC. 2001. 
  • Hardin, James; Joseph Hilbe英语Joseph Hilbe. Generalized Linear Models and Extensions. College Station: Stata Press. 2001, 2007. 

廣義線性模型, 在統計學上, 英語, generalized, linear, model, 缩写作, 是一種應用灵活的線性迴歸模型, 该模型允许因变量的偏差分布有除了正态分布之外的其它分布, 此模型假設實驗者所量測的隨機變數的分佈函數與實驗中系統性效應, 即非隨機的效應, 可經由一鏈結函數, link, function, 建立可解釋其相關性的函數, 約翰, 內爾德, 英语, john, nelder, 與彼得, 麥古拉, 英语, peter, mccullagh, 在1989年出版, 被視為廣義線性模式的代表性. 在統計學上 廣義線性模型 英語 generalized linear model 缩写作 GLM 是一種應用灵活的線性迴歸模型 该模型允许因变量的偏差分布有除了正态分布之外的其它分布 此模型假設實驗者所量測的隨機變數的分佈函數與實驗中系統性效應 即非隨機的效應 可經由一鏈結函數 link function 建立可解釋其相關性的函數 約翰 內爾德 英语 John Nelder 與彼得 麥古拉 英语 Peter McCullagh 在1989年出版 被視為廣義線性模式的代表性文獻中提綱挈領地說明了廣義線性模式的原理 計算 如最大概似估計量 及其實務應用 目录 1 概說 2 模式組成 2 1 指數族 2 2 線性預測子 2 3 鏈結函數 3 例子 3 1 一般线性模式 3 2 線性迴歸 3 3 二元数据 3 4 計次資料 4 參考文獻 5 延伸閱讀概說 编辑广义线性模型是普通最小二乘法 OLS 的扩展 在廣義線性模式中 假設每個資料的觀測值Y displaystyle mathbf Y nbsp 來自某個指數族分佈 該分佈的平均數 m displaystyle boldsymbol mu nbsp 可由與該點獨立的X解釋 E y m g 1 X b displaystyle operatorname E boldsymbol y boldsymbol mu g 1 mathbf X boldsymbol beta nbsp 其中E y displaystyle E boldsymbol y nbsp 為y displaystyle boldsymbol y nbsp 的期望值 X b displaystyle mathbf X boldsymbol beta nbsp 是由未知待估計參數b displaystyle boldsymbol beta nbsp 與已知變數X displaystyle mathbf X nbsp 構成的線性估計式 g displaystyle g nbsp 則為鏈結函數 在此模式下 y displaystyle boldsymbol y nbsp 的方差V displaystyle V nbsp 可表示為 Var y V m V g 1 X b displaystyle operatorname Var boldsymbol y operatorname V boldsymbol mu operatorname V g 1 mathbf X boldsymbol beta nbsp 一般假設V displaystyle V nbsp 可視為一指數族隨機變數的函數 未知參數b displaystyle boldsymbol beta nbsp 通常會以最大概似估計量 殆最大概似估計量 英语 quasi maximum likelihood 或以貝氏方法來估計 模式組成 编辑廣義線性模式包含了以下主要部份 來自指數族的分佈函數f displaystyle f nbsp 線性預測子 h X b displaystyle boldsymbol eta mathbf X boldsymbol beta nbsp 鏈結函數g displaystyle g nbsp 使得 E Y X m g 1 h displaystyle E Y mid X boldsymbol mu g 1 boldsymbol eta nbsp 指數族 编辑 指數族隨機變數意指其具參數8與t的機率密度函數 f 在論離散型隨機變數時 則為概率质量函数 可表為 f Y y 8 t exp a y b 8 c 8 h t d y t displaystyle f Y y theta tau exp left frac a y b theta c theta h tau d y tau right nbsp t稱之為變異參數 通常用以解釋變異數 函數a b c d 及h為已知 許多 不包含全部 型態的隨機變數可歸類為指數族8與該隨機變數的期望值有關 若a為恆等函數 則稱該分佈屬於 正則型式 另外 若b為恆等而t已知 則8稱為正則參數 其與期望值的關係可表為 m E Y c 8 displaystyle mu operatorname E Y c theta nbsp 一般情形下 該分佈的變異數可表為 Var Y c 8 h t displaystyle operatorname Var Y c theta h tau nbsp 線性預測子 编辑 線性預測子是用將獨立變數經由線性組合來尋模式所能提供之資訊的計量變數 符號h 希臘字母 H 通常用來表示線性預測子 它與資料的期望值的鏈結函數值有關 故稱 預測子 h表為未知參數b的線性組合 故為 線性 X則為獨立變數所組合而成的观测矩陣 如此一來 h可表示為 h X b displaystyle eta mathbf X boldsymbol beta nbsp X的元素通常為模式設計時可觀測的資料或為實驗時所得的數據 鏈結函數 编辑 鏈結函數解釋了線性預測子與分佈期望值的關係 鏈結函數的選擇可視情形而定 通常只要符合鏈結函數的值域有包含分佈期望值的條件即可 當使用具正則參數8的分佈時 鏈結函數需符合XTY 為b的充份統計量此一條件 這在8與線性預測子的鏈結函數值相等時方成立 下面列出若干指數族分佈的典型鏈結函數及其反函數 有時稱為均值函數 典型鏈結函數 Y的分佈 名稱 鏈結函數 均值函數正态 恆等 X b m displaystyle mathbf X boldsymbol beta mu nbsp m X b displaystyle mu mathbf X boldsymbol beta nbsp 指數 倒數 X b m 1 displaystyle mathbf X boldsymbol beta mu 1 nbsp m X b 1 displaystyle mu mathbf X boldsymbol beta 1 nbsp Gamma逆高斯 二次倒數 X b m 2 displaystyle mathbf X boldsymbol beta mu 2 nbsp m X b 1 2 displaystyle mu mathbf X boldsymbol beta 1 2 nbsp 卜瓦松 自然對數 X b ln m displaystyle mathbf X boldsymbol beta ln mu nbsp m exp X b displaystyle mu exp mathbf X boldsymbol beta nbsp 二項式 Logit X b ln m 1 m displaystyle mathbf X boldsymbol beta ln left frac mu 1 mu right nbsp m exp X b 1 exp X b displaystyle mu frac exp mathbf X boldsymbol beta 1 exp mathbf X boldsymbol beta nbsp 多項式在指數分佈與Gamma分佈中 其典型鏈結函數的值域並不包含分佈均值 另外其線性預測子亦可能出現負值 此兩種分佈絕無均值為負的可能 當進行极大似然估计进行計算時需避免上述情形出現 這時便需要使用到非典型鏈結函數 例子 编辑一般线性模式 编辑 有些人可能會把一般線性模式和廣義線性模式給弄混了 一般線性模式可視為廣義線性模式的一個鏈結函數為恆等的特例 一般線性模式有著悠長的發展歷史 廣義線性模式具非恆等鏈結函數者有著漸近一致的結果 線性迴歸 编辑 廣義線性模式最簡單的例子便是線性迴歸 此例中分佈函數為常態分佈而鏈結函數為恆等函數在變異數已知的條件下並符合正規式 這個例子具有廣義線性模式罕有的极大似然估计的解析解 二元数据 编辑 在討論二元反應結果 如有跟沒有 時 通常以二項式分布建模 其期望值 mi通常解釋為樣本Yi發生事件的機率p二項式分布有許多常用的鏈結函數 最常用的鏈結函數是logit g p ln p 1 p displaystyle g p ln left p over 1 p right nbsp 以此建模的廣義線性模式通常稱為logistic迴歸模式 另外 任何連續型機率分配累積函數 CDF 的反函數皆可使用此模式 因為其值域為 0 1 包含了二項式分佈期望值的可能值域 常態機率分配累積函數F displaystyle Phi nbsp 是一個廣受應用於probit模式的選擇 其鏈結函數為 g p F 1 p displaystyle g p Phi 1 p nbsp 有時恆等函數也會被用為二項式分佈的鏈結函數 其缺點為預測值可能超出合理範圍 經過若干修正可以避免上述問題 但會在解釋上造成困難 此模式通常適用於p接近0 5的情形 此種建模很接近logit及probit的線性轉換 有時計量經濟學家會稱其為Harvard模式 二元資料的廣義線性模式變異函數可寫為 Var Y i t m i 1 m i displaystyle operatorname Var Y i tau mu i 1 mu i nbsp 其中變異參數t displaystyle tau nbsp 通常等於1 若非 則該模式稱為溢變異或殆二元 計次資料 编辑 另一個常用的例子為用於計次的泊松分佈 此例的鏈結函數為自然對數 為正規鏈結 變異數函數與均值成等比 var Y i t m i displaystyle operatorname var Y i tau mu i nbsp 其中變異參數t displaystyle tau nbsp 通常為1 若非 此模式通常稱為溢變異或似卜瓦松 參考文獻 编辑Hastie T J Tibshirani R J Generalized Additive Models Chapman amp Hall CRC 1990 ISBN 978 0 412 34390 2 Madsen Henrik Thyregod Poul Introduction to General and Generalized Linear Models Chapman amp Hall CRC 2011 ISBN 978 1 4200 9155 7 McCullagh Peter Nelder John Generalized Linear Models Second Edition Boca Raton Chapman and Hall CRC 1989 ISBN 0 412 31760 5 Wood Simon Generalized Additive Models An Introduction with R Chapman amp Hall CRC 2006 ISBN 1 58488 474 6 延伸閱讀 编辑McCullagh Peter John Nelder 英语 John Nelder Generalized Linear Models London Chapman and Hall 1989 ISBN 0 412 31760 5 引文使用过时参数coauthors 帮助 Dobson A J Introduction to Generalized Linear Models Second Edition London Chapman and Hall CRC 2001 Hardin James Joseph Hilbe 英语 Joseph Hilbe Generalized Linear Models and Extensions College Station Stata Press 2001 2007 引文使用过时参数coauthors 帮助 请检查 date 中的日期值 帮助 取自 https zh wikipedia org w index php title 廣義線性模型 amp oldid 79548052, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。