fbpx
维基百科

邏輯斯諦迴歸

邏輯斯諦迴歸(英語:Logistic regression,又譯作邏輯斯迴歸羅吉斯迴歸邏輯迴歸对数几率迴归),在统计学中是一種对数几率模型(英語:Logit model,又译作逻辑斯谛模型、评定模型、分类评定模型),是离散选择法模型之一,属于多元变量分析范畴,是社会学生物统计学临床、数量心理学、计量经济学市场营销统计实证分析的常用方法。

通过使事件的对数发生率(log-odd)成为一个或多个自变量的线性组合,对事件发生的概率进行建模。形式上,在二元逻辑回归中,有一个二元因变量,由指示变量编码,其中两个值标记为“0”和“1”,而自变量每个都可以是二元变量(两个类,由指示变量)或连续变量(任何实值)。标记为“1”的值的相应概率可以在0和1之间变化;将对数发生率转换为概率的函数就是逻辑斯諦函数,因此得名。对数发生率单位称为logit,来自logistic unit[1]

二元变量在统计学中广泛用于对某一类别或事件发生概率的建模,例如团队获胜概率、患者健康概率等,而其中,逻辑模型则自大约 1970年以来最常用的二元回归模型。[2]当存在两个以上可能值(例如图像是否是猫、狗、狮子等)时,二元变量可以推广为分类变量,并且二元逻辑回归推广为多项逻辑回归。如果多个类别是有序的,则可以使用序数逻辑回归。逻辑回归模型本身只是简单地根据输入对输出概率进行建模,并不执行统计分类。[3]

例子 编辑

以一个例子说明逻辑回归如何解决实际问题:

一个小组20名学生,各自花费0~6小时准备考试,他们不同的学习时数如何影响通过考试的概率?

问题中的因变量是考试“通过”或者“挂科”,这是用逻辑回归的原因,虽然分别用“1”和“0”表示,但这两个数字不代表基数。如果问题发生变化,用0-100的成绩(基数)代替通过、挂科,则可以使用回归分析。

下表显示每个学生花费在学习上的小时数,以及他们通过(1)或挂科(0)。

小时(xk 0.50 0.75 1.00 1.25 1.50 1.75 1.75 2.00 2.25 2.50 2.75 3.00 3.25 3.50 4.00 4.25 4.50 4.75 5.00 5.50
通过(yk 0 0 0 0 0 0 1 0 1 0 1 0 1 0 1 1 1 1 1 1

对学习时间(xk)和测试结果(yk = 1 表示通过,0 表示挂科)组成的数据进行拟合。数据点由下标k索引,该下标从1到20。x变量称为“自变量”,y变量称为“分类变量”,由“通过”或“失败”两个类别组成,分别对应于分类值1和0。

模型 编辑

 
拟合xmym数据的逻辑回归曲线图。该曲线显示了通过考试的概率与学习时间的关系

逻辑函数形式为:

 

其中μ是位置参数(曲线的中点,其中 ),s是尺度参数。该式可重写为:

 

 称为截距,是直线 y截距。 是反比例参数或速率参数,是作为"x"函数的对数发生率的"y"截距和斜率。反之, ,并且 

逻辑斯谛分布公式 编辑

 
逻辑斯谛分布函数图像
 

其中参数 常用最大似然估計

IIA假设 编辑

全名為Independent and irrelevant alternatives假设,也称作IIA效应,指Logit模型中的各个可选项是独立的。

IIA假设示例 编辑

市场上有A,B,C三个商品相互竞争,分别占有市场份额:60%,30%和10%,三者比例为:6:3:1

一个新产品D引入市场,有能力占有20%的市场——

如果满足IIA假设,各个产品独立作用,互不关联:新产品D占有20%的市场份额,剩下的80%在A、B、C之间按照6:3:1的比例瓜分,分别占有48%,24%和8%。

如果不满足IIA假设,比如新产品D跟产品B相似度高,则新产品D的CP值高而夺去产品B的部分市场(总份额的20%),則产品B剩余10%,而产品A和C的市场份额保持60%和10%不变。

满足IIA假设的优点 编辑

  • 可以获得每个个性化的选择集合的一致的参数估计
  • 各个类别的子集的一般化的估计
  • 大大节省时间
  • 可选项数目很多的时候尤其如此

IIA假设的检验 编辑

Hausman检验 编辑

傑里·A·奧斯曼和丹尼爾·麥克法登提出的。

一般化模型的检验 编辑

IIA问题的解决方法 编辑

多项式Probit模型 编辑

一般化极值模型 编辑

可以将可选项间的相关性建模

巢式Logit模型 编辑

巢式(Nested)表示可选项被分作不同的组,组与组之间不相关,组内的可选项相关,相关程度用1-λg来表示(1-λg越大,相关程度越高)

对偶组合Logit模型 编辑
一般化分簇Logit模型 编辑

混合Logit模型 编辑

应用 编辑

配體結合分析 编辑

配體結合分析的典型校准曲线是S形的,下边界(渐近线)靠近背景信号(非特异性结合),而上渐近线靠近最大的饱和响应。 四参数逻辑模型通常是拟合这种形状校准曲线的首选,可以准确描述测量信号值与分析物浓度之间的S形关系。当不对称性明显时会添加第五个参数,但可能会导致拟合算法变得不稳定。[4]

二类评定模型(Binary Logit Model) 编辑

  • 仅有两个可选项:V1n,V2n
变量类型 统计量 组别比较 回归模型
numerical mean t-test/ANOVA 线性回归
categorical percentage Chi-square test 逻辑斯谛回归
persontime KM estimates
(survival curves)
Log-rank test 比例风险回归

参考书目 编辑

  • Agresti, Alan: Categorical Data Analysis. New York: Wiley, 1990.
  • Amemiya, T., 1985, Advanced Econometrics,Harvard University Press.
  • Hosmer, D. W. and S. Lemeshow: Applied logistic regression. New York; Chichester, Wiley, 2000.

参见 编辑

外部链接 编辑

参考 编辑

  1. ^ Hosmer, David W.; Lemeshow, Stanley. Applied logistic regression. Wiley series in probability and statistics 2. ed., [Nachdr.] New York: Wiley. 200. ISBN 978-0-471-35632-5.  缺少或|title=为空 (帮助)
  2. ^ Cramer, J.S. The Origins of Logistic Regression. SSRN Electronic Journal. 2003. ISSN 1556-5068. doi:10.2139/ssrn.360300 (英语). 
  3. ^ Walker, Strother H.; Duncan, David B. Estimation of the Probability of an Event as a Function of Several Independent Variables. Biometrika. 1967-06, 54 (1/2). doi:10.2307/2333860. 
  4. ^ Findlay, John W. A.; Dillard, Robert F. Appropriate calibration curve fitting in ligand binding assays. The AAPS Journal. 2007-06, 9 (2). ISSN 1550-7416. doi:10.1208/aapsj0902029. 

邏輯斯諦迴歸, 此條目需要精通或熟悉相关主题的编者参与及协助编辑, 2016年9月17日, 請邀請適合的人士改善本条目, 更多的細節與詳情請參见討論頁, 英語, logistic, regression, 又譯作邏輯斯迴歸, 羅吉斯迴歸, 邏輯迴歸, 对数几率迴归, 在统计学中是一種对数几率模型, 英語, logit, model, 又译作逻辑斯谛模型, 评定模型, 分类评定模型, 是离散选择法模型之一, 属于多元变量分析范畴, 是社会学, 生物统计学, 临床, 数量心理学, 计量经济学, 市场营销等统计实证分析的. 此條目需要精通或熟悉相关主题的编者参与及协助编辑 2016年9月17日 請邀請適合的人士改善本条目 更多的細節與詳情請參见討論頁 邏輯斯諦迴歸 英語 Logistic regression 又譯作邏輯斯迴歸 羅吉斯迴歸 邏輯迴歸 对数几率迴归 在统计学中是一種对数几率模型 英語 Logit model 又译作逻辑斯谛模型 评定模型 分类评定模型 是离散选择法模型之一 属于多元变量分析范畴 是社会学 生物统计学 临床 数量心理学 计量经济学 市场营销等统计实证分析的常用方法 通过使事件的对数发生率 log odd 成为一个或多个自变量的线性组合 对事件发生的概率进行建模 形式上 在二元逻辑回归中 有一个二元因变量 由指示变量编码 其中两个值标记为 0 和 1 而自变量每个都可以是二元变量 两个类 由指示变量 或连续变量 任何实值 标记为 1 的值的相应概率可以在0和1之间变化 将对数发生率转换为概率的函数就是逻辑斯諦函数 因此得名 对数发生率单位称为logit 来自logistic unit 1 二元变量在统计学中广泛用于对某一类别或事件发生概率的建模 例如团队获胜概率 患者健康概率等 而其中 逻辑模型则自大约 1970年以来最常用的二元回归模型 2 当存在两个以上可能值 例如图像是否是猫 狗 狮子等 时 二元变量可以推广为分类变量 并且二元逻辑回归推广为多项逻辑回归 如果多个类别是有序的 则可以使用序数逻辑回归 逻辑回归模型本身只是简单地根据输入对输出概率进行建模 并不执行统计分类 3 目录 1 例子 1 1 模型 2 逻辑斯谛分布公式 3 IIA假设 3 1 IIA假设示例 3 2 满足IIA假设的优点 3 3 IIA假设的检验 3 3 1 Hausman检验 3 3 2 一般化模型的检验 3 4 IIA问题的解决方法 3 4 1 多项式Probit模型 3 4 2 一般化极值模型 3 4 2 1 巢式Logit模型 3 4 2 2 对偶组合Logit模型 3 4 2 3 一般化分簇Logit模型 3 4 3 混合Logit模型 4 应用 4 1 配體結合分析 5 二类评定模型 Binary Logit Model 6 参考书目 7 参见 8 外部链接 9 参考例子 编辑以一个例子说明逻辑回归如何解决实际问题 一个小组20名学生 各自花费0 6小时准备考试 他们不同的学习时数如何影响通过考试的概率 问题中的因变量是考试 通过 或者 挂科 这是用逻辑回归的原因 虽然分别用 1 和 0 表示 但这两个数字不代表基数 如果问题发生变化 用0 100的成绩 基数 代替通过 挂科 则可以使用回归分析 下表显示每个学生花费在学习上的小时数 以及他们通过 1 或挂科 0 小时 xk 0 50 0 75 1 00 1 25 1 50 1 75 1 75 2 00 2 25 2 50 2 75 3 00 3 25 3 50 4 00 4 25 4 50 4 75 5 00 5 50通过 yk 0 0 0 0 0 0 1 0 1 0 1 0 1 0 1 1 1 1 1 1对学习时间 xk 和测试结果 yk 1 表示通过 0 表示挂科 组成的数据进行拟合 数据点由下标k索引 该下标从1到20 x变量称为 自变量 y变量称为 分类变量 由 通过 或 失败 两个类别组成 分别对应于分类值1和0 模型 编辑 nbsp 拟合xm ym数据的逻辑回归曲线图 该曲线显示了通过考试的概率与学习时间的关系逻辑函数形式为 p x 1 1 e x m s displaystyle p x frac 1 1 e x mu s nbsp 其中m是位置参数 曲线的中点 其中p m 1 2 displaystyle p mu 1 2 nbsp s是尺度参数 该式可重写为 p x 1 1 e b 0 b 1 x displaystyle p x frac 1 1 e beta 0 beta 1 x nbsp b 0 m s displaystyle beta 0 mu s nbsp 称为截距 是直线y b 0 b 1 x displaystyle y beta 0 beta 1 x nbsp 的y截距 b 1 1 s displaystyle beta 1 1 s nbsp 是反比例参数或速率参数 是作为 x 函数的对数发生率的 y 截距和斜率 反之 m b 0 b 1 displaystyle mu beta 0 beta 1 nbsp 并且s 1 b 1 displaystyle s 1 beta 1 nbsp 逻辑斯谛分布公式 编辑 nbsp 逻辑斯谛分布函数图像P Y 1 X x e x b 1 e x b displaystyle P Y 1 X x frac e x beta 1 e x beta nbsp 其中参数b displaystyle beta nbsp 常用最大似然估計 IIA假设 编辑全名為Independent and irrelevant alternatives假设 也称作IIA效应 指Logit模型中的各个可选项是独立的 IIA假设示例 编辑 市场上有A B C三个商品相互竞争 分别占有市场份额 60 30 和10 三者比例为 6 3 1一个新产品D引入市场 有能力占有20 的市场 如果满足IIA假设 各个产品独立作用 互不关联 新产品D占有20 的市场份额 剩下的80 在A B C之间按照6 3 1的比例瓜分 分别占有48 24 和8 如果不满足IIA假设 比如新产品D跟产品B相似度高 则新产品D的CP值高而夺去产品B的部分市场 总份额的20 則产品B剩余10 而产品A和C的市场份额保持60 和10 不变 满足IIA假设的优点 编辑 可以获得每个个性化的选择集合的一致的参数估计 各个类别的子集的一般化的估计 大大节省时间 可选项数目很多的时候尤其如此IIA假设的检验 编辑 Hausman检验 编辑 傑里 A 奧斯曼和丹尼爾 麥克法登提出的 一般化模型的检验 编辑 IIA问题的解决方法 编辑 多项式Probit模型 编辑 一般化极值模型 编辑 可以将可选项间的相关性建模 巢式Logit模型 编辑 巢式 Nested 表示可选项被分作不同的组 组与组之间不相关 组内的可选项相关 相关程度用1 lg来表示 1 lg越大 相关程度越高 对偶组合Logit模型 编辑 一般化分簇Logit模型 编辑 混合Logit模型 编辑应用 编辑配體結合分析 编辑 配體結合分析的典型校准曲线是S形的 下边界 渐近线 靠近背景信号 非特异性结合 而上渐近线靠近最大的饱和响应 四参数逻辑模型通常是拟合这种形状校准曲线的首选 可以准确描述测量信号值与分析物浓度之间的S形关系 当不对称性明显时会添加第五个参数 但可能会导致拟合算法变得不稳定 4 二类评定模型 Binary Logit Model 编辑仅有两个可选项 V1n V2n变量类型 统计量 组别比较 回归模型numerical mean t test ANOVA 线性回归categorical percentage Chi square test 逻辑斯谛回归persontime KM estimates survival curves Log rank test 比例风险回归参考书目 编辑Agresti Alan Categorical Data Analysis New York Wiley 1990 Amemiya T 1985 Advanced Econometrics Harvard University Press Hosmer D W and S Lemeshow Applied logistic regression New York Chichester Wiley 2000 参见 编辑多重变量分析外部链接 编辑UFLDL Logistic回归 页面存档备份 存于互联网档案馆 南佛羅里達大學Logistic回归課程 線上計算Logistic回归 页面存档备份 存于互联网档案馆 参考 编辑 Hosmer David W Lemeshow Stanley Applied logistic regression Wiley series in probability and statistics 2 ed Nachdr New York Wiley 200 ISBN 978 0 471 35632 5 缺少或 title 为空 帮助 Cramer J S The Origins of Logistic Regression SSRN Electronic Journal 2003 ISSN 1556 5068 doi 10 2139 ssrn 360300 英语 Walker Strother H Duncan David B Estimation of the Probability of an Event as a Function of Several Independent Variables Biometrika 1967 06 54 1 2 doi 10 2307 2333860 Findlay John W A Dillard Robert F Appropriate calibration curve fitting in ligand binding assays The AAPS Journal 2007 06 9 2 ISSN 1550 7416 doi 10 1208 aapsj0902029 取自 https zh wikipedia org w index php title 邏輯斯諦迴歸 amp oldid 79711855, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。