fbpx
维基百科

虚拟变量

虚拟变量(英語:dummy variable),又稱哑变量,指在统计学计量经济学,尤其是迴歸分析中僅取0或1的值,以此表示某些可能改变结果的定性效应之有无的变量。[1][2]可以认为,虚拟变量是回归模型中用数字来替代并表示定性事实,从而将数据分为互斥的类别(如吸烟者及非吸烟者)。[3]

虚拟自变量(又称虚拟解释变量)取值为0时,该变量的系数因变量没有影响,而当虚拟变量取值为1时,其系数会改变截距。例如,假定某人是否为某组的成员是与回归相关的定性变量之一,如果属于该组成员以1代表,则其他所有人获得0值,此时截距对非成员是常数项,对成员则是常数项加上“成员”虚拟变量的系数。[4]

虚拟变量常用于时间序列分析,包括状态转换、季节性分析和定性数据应用。

引入虚拟自变量 编辑

 
图1:wage = α0 + δ0female + α1education + U的图像,其中δ0 < 0

回归模型中,引入虚拟变量的方式与引入定量变量(作为解释变量)的方式相同。例如,假设一个工资(wage)的明瑟回归模型,其中工资受性别(以female表示的虚拟变量,定性)和教育年限(education,定量)的影响,则:

 

其中 误差项。在模型中,当一个人是女性时,female = 1,当是男性时,female = 0。 δ0可以理解为教育条件一样时,女性和男性之间的工资差异。因此,δ0有助于确定男女之间的工资是否存在差异。例如,如果δ0 > 0(正系数),则女性的工资高于男性(其他因素不变)。附加在虚拟变量前的系数称为差别截距系数(differential intercept coefficient)。在模型的图像上,它可视为女性及男性之間截距的差異。图中显示的为δ0 < 0(男性的工资高于女性)的情形。[5]

虚拟变量可扩展到更為复杂的情況,例如通过替每个季节设置虚拟变量来捕捉季节效应:夏季时 ,其他季节取0;秋季时 ;冬季时 ;春季时 。在面板数据中,可为横截面数据(如公司或国家)中的每个单位或汇总时间序列中的时期设置固定效应估计虚拟变量。在此種迴歸中,必須删除常数项或删除其中一個虚拟变量,将其作为评估其他类别的基本类别,以避免落入虚拟变量陷阱(dummy variable trap):

所有回归方程中的常数项是一个系数乘以一个等于1的回归量。当回归表示为矩阵方程时,回归量矩阵由一列1(常数项)、0和1向量(虚拟变量)以及其他回归量(若有)组成。例如,如果一个模型同时包含男性和女性虚拟变量,则这些向量的总和是全一向量,因为每个观察都要么归为男性,要么归为女性。因此,这个总和等于常数项的回归量,即第一个向量。结果,即使使用典型的伪逆法,回归方程也无法求解。换句话说:如果全一向量(常数项)回归量和一组穷举的虚拟变量同时存在,则会出现完全多重共线性[6],回归形成的方程组没有唯一解。此即虚拟变量陷阱。可通过删除常数项或其中一个有问题的虚拟变量以避免陷阱,而被删除的虚拟变量即作为与其他类别进行比较的基本类别。

方差分析模型 编辑

若一个回归模型中,因变量本质上是定量的,但所有解释变量都是虚拟变量(本质上是定性的),这种回归模型称为方差分析(ANOVA)模型。[3]

有一个定性变量的方差分析模型 编辑

假定我们要进行回归以了解公立学校教师的平均年薪在A国51个州的三个地理区域之间是否存在差异,其中这三个区域分别为:(1)北部(21 个州),(2)南部(17 个州),(3)西部(13 个州)。假设简单算术平均工资如下:$24,424.14(北)、$22,894(南)、$26,158.62(西)。其算术平均值不同,但它们在统计上是否有意义?为了比较平均值,可以使用方差分析技术。回归模型可以定义为:

 

其中

  i州公立学校教师的平均年薪
若i州在北部地区,则 
否则 (除北部以外的任何地区)
若i州在南部地区, 
否则 

该模型中只有定性回归量,如果观测属于特定类别,则取值为1,如果属于任何其他类别,则取值为0。因此,它是一个方差分析模型。

 
图 2:方差分析模型示例回归结果的图像:A国3个地区公立学校教师的平均年薪。

现在,考虑双方的期望值,可得到以下信息:

北部地区公立学校教师平均工资:

E(Yi|D2i = 1, D3i = 0) = α1 + α2

南部地区公立学校教师平均工资:

E(Yi|D2i = 0, D3i = 1) = α1 + α3

西部地区公立学校教师平均工资:

E(Yi|D2i = 0, D3i = 0) = α1

(期望值中不含误差项,因为我们假设它满足通常的普通最小二乘法条件,即E(ui) = 0。)

期望值可以解释如下:西部公立学校教师的平均工资等于多元回归方程中的截距项α1,加上差别截距系数α2α3,后者解释为南部、北部地区的教师工资均值与西部地区相差多少。因此,北部和南部教师的平均工资与西部教师的平均工资进行比较。西部地区因此成为基准组,即与之进行比较的组。省略的组别(即没有分配虚拟变量的组别)作为基准组别。

使用这些数据进行回归的结果为:

Ŷi = 26,158.62 − 1734.473D2i − 3264.615D3i
se = (1128.523) (1435.953) (1499.615)
t = (23.1759) (−1.2078) (−2.1776)
p = (0.0000) (0.2330) (0.0349)
R2 = 0.0901

其中,se = 标准误差t = t统计量英语t-statisticp = p值

回归结果可以解释为:西部教师(基准组)的平均工资约为$26,158;与之相比,北部教师的工资低约$1734($26,158.62 - $1734.473 = $24,424.14,即平均工资北部教师的工资),南部教师的工资低约$3265($26,158.62 - $3264.615 = $22,894,即南部教师的平均工资)。

要确定南、北部教师的平均工资与西部教师的平均工资(比较组别)在统计学上是否有差异,我们必须找出回归结果的斜率系数是否具有统计学意义。为此,我们需要考虑p值。北部的估计斜率系数在统计上并不显着,因为它的p值为23%;然而,南部的p值仅在3.5%左右,在5%的水平上具有统计显著性。因此,总体结果是:西部和北部教师的平均工资在统计上没有显著差异,但南部教师的平均工资在统计上比西部低$3265左右。模型如图2所示。该模型是一个方差分析模型,其中,一个定性变量具有3个类别。[3]

有两个定性变量的方差分析模型 编辑

考虑具有两个定性变量的方差分析模型,每个变量都有两个类别:因变量“时薪”使用定性变量“婚姻状况”(已婚/未婚)和“地理区域”(北部/非北部)来解释。其中,婚姻状况和地理区域是两个解释性虚拟变量。[3]

假设基于某些给定数据的回归输出如下所示:

Ŷi = 8.8148 + 1.0997D2 − 1.6729D3

其中,

Y为时薪(单位:$)
D2为婚姻状况,1 = 已婚,0 = 未婚
D3为地理区域,1 = 北部,0 = 非北部

该模型为每个定性变量分配了一个虚拟变量,比每个变量中包含的类别数少一个。

这里,基准组是省略的组别:未婚、非北方地区的人。所有比较都与该基准组或省略的组别相关。基准组的平均时薪约为$8.81(截距项)。相比之下,已婚人士的平均时薪高出约$1.10,约为$9.91($8.81 + $1.10)。相比之下,居住在北方的人的平均时薪低约$1.67,约为$7.14($8.81 - $1.67)。

一般来说,如果回归中包含一个以上的定性变量,则应选择一个省略的组别作为基准组。所有比较都与该组相关。截距项将显示基准组的期望值,斜率系数显示其他组别与基准(省略)组别的差异程度。[3]

协方差分析模型 编辑

包含定量和定性变量的混合回归模型称为协方差分析英语Analysis of covariance(ANCOVA)模型。 协方差分析模型是方差分析模型的扩展。它们统计控制定量解释变量(也称为协变量或控制变量)的影响。[3]

为了说明如何包含定性和定量回归变量来形成协方差分析模型,假设我们考虑在方差分析模型中使用的相同示例,其中有一个定性变量:A国三个地理区域的公立学校教师的平均年薪。如果我们包括一个定量的变量:州政府对每名公立学校学生的财政支出,则这一回归中,可得到以下模型:

 
图3:协方差分析模型示例的回归结果:公立学校教师的年薪(Y)与公立学校每名学生的州财政支出之间的关系。
Yi = α1 + α2D2i + α3D3i + α4Xi + Ui

其中,

Yi = i州公立学校教师的平均年薪
Xi = 公立学校每名学生的州财政支出
D2i = 1,若i州在北部地区
否则D2i = 0
D3i = 1,若i州在南部地区
否则D3i = 0

假设这个模型的回归输出是

Ŷi = 13,269.11 − 1673.514D2i − 1144.157D3i + 3.2889Xi

结果表明,公立学校每名学生的州财政支出每增加$1,公立学校教师的平均工资就会增加约$3.29。此外,对于北部地区的一个州,教师的平均工资比西部地区低约$1673,对于南部地区的一个州,教师的平均工资比西部地区低约$1144。图3描绘了该模型。假设支出系数不因州而异,则平均工资线彼此平行。图中分别显示了每个类别中,两个定量变量之间的关系,即公立学校教师的工资(Y)与公立学校每名学生的州财政支出(X)之间的关系。[3]

虚拟变量间的交互作用 编辑

回归模型中的定量回归变量通常存在交互作用。同样,定性的回归变量,即虚拟变量之间也可能有交互作用,这些交互作用可在回归模型中描述。例如,在涉及工资确定的回归中,如果考虑两个定性变量:性别和婚姻状况,则婚姻状况和性别之间可能存在交互作用。[5]这些交互作用可以在回归方程中显示,如下例所示。

由于两定性变量是性别和婚姻状况,定量的解释变量是受教育年限,解释变量纯线性的回归将是

Yi = β1 + β2D2,i + β3D3,i + αXi + Ui

其中

i表示某个特定个人
Y = 时薪(单位:$)
X = 受教育年限
D2 = 1若为女性,否则为0
D3 = 1若已婚,否则为0

这一模型无法表达两个定性变量D2D3之间发生交互作用的可能性。例如,已婚女性的工资与未婚男性的工资差异,其数额与单独为女性和单独为已婚的差值之和不同。为了考虑这种可能性,工资的确定可以指定为:

Yi = β1 + β2D2,i + β3D3,i + β4(D2,iD3,i) + αXi + Ui

其中,

β2 = 作为女性的差别效应
β3 = 已婚的差别效应
β4 = 女性且已婚的进一步差别效应

根据该等式,在没有非零误差的情况下,未婚男性的工资为β1 + αXi,未婚女性的工资为β1 + β2 + αXi,已婚男性的工资为β1 + β3 + αXi,而已婚女性的比例是β1 + β2 + β3 + β4 + αXi(其中任何虚拟变量系数的估计值都可能是为正、零,或负)。

由此,交互虚拟变量(两个虚拟变量的乘积)会改变因变量,使之与单独考虑两个虚拟变量时得到的值有所不同。[3]

或者,可以通过使用不同的数据分类方案来避免使用虚拟变量的乘积来表达交互作用,即使用根据特征组合指定组别的方案。如果令

D4 = 1若为未婚女性,否则为0
D5 = 1若为已婚男性,否则为0
D6 = 1若为已婚女性,否则为0

那么仅需指定如下回归:

Yi = δ1 + δ4D4,i + δ5D5,i + δ6D6,i + αXi + Ui

那么在零误差项下,因变量的值是对于基准组未婚男性为δ1 + αXi,对于未婚女性为δ1 + δ4 + αXi,对于已婚男性为δ1 + δ5 + αXi,对于已婚女性为δ1 + δ6 + αXi。该方法在等号右侧使用的变量数与先前具有交互项的方法相同,并且使用本方法还是指定交互项目的方法,对于Xi下任意定性特征组合下的因变量预测值,给出的回归结果是相同的。

虚拟因变量 编辑

因变量是虚拟变量的情景 编辑

具有虚拟因变量(也称为定性因变量)的模型中,因变量受解释变量的影响是定性的。例如,一些关于执行“多少”行为的决定涉及事先决定是否执行该行为;“事前决策”的回归在回归模型中有一个因虚拟变量。[7]

例如,潜在工人成为劳动力一部分的决策是一个虚拟因变量。该决策是二分的,即有两种可能的结果:是和否。因此,虚拟因变量Participation在“参与”时取值为1,“不参与”则取值为0。[3]下面给出其他一些二元的虚拟因变量的例子:

  • 决策:职业选择。虚拟因变量:若选择成为高管,则 高管=1,否则为0。
  • 决策:隶属于某政党。虚拟因变量:若隶属于某政党,则 隶属=1,不加入则为0。
  • 决策:退休。虚拟因变量:若已退休,则 退休=1,0表示未退休。

当虚拟因变量具有两个以上的值时(例如隶属于多个政党),它就变成了多响应(或多项式、多叉分枝)模型。[7]

虚拟因变量模型 编辑

虚拟因变量模型的分析有不同的方法。其中一种是通常的普通最小二乘法,在该情景下称为线性概率模型英语linear probability model。另一种方法是假设存在一个不可观察的连续潜变量Y*,如果Y* > 0,则观察到的二分变量Y = 1,否则为0。这是逻辑斯谛概率单位模型英语Probit model的基本理念。这些模型将在下面简要讨论。[8]

线性概率模型 编辑

普通最小二乘法模型中,若因变量Y是二分的虚拟变量,取值0或1,则称该模型为线性概率模型英语linear probability model(LPM)。[8]假设考虑以下回归:

 

其中 

  = 家庭收入
 若住房为家庭自有,0若住房非家庭自有

该模型称为线性概率模型,是因为回归是线性的。给定Xi条件下的Yi条件均值记作 ,可解释为在相应Xi值下,事件发生的条件概率,即Pr(Yi = 1 | Xi) 。在这个例子中, 表示的是当家庭收入为Xi时,一个家庭自有住房的概率。

此时,使用普通最小二乘法的假设 ,可得到

 

LPM模型中存在一些固有问题:

  1. 回归线无法做到拟合良好,因此诸如R2之类的显著性度量将不可靠。
  2. 使用LPM方法分析的模型有异方差干扰。
  3. 误差项有非正态分布。
  4. LPM可能会给出大于1或小于0的因变量的预测值。这将很难作出解释,因为预测值是概率,必须介于0和1之间。
  5. LPM模型的变量之间可能存在非线性关系,在这种情况下,线性回归将无法准确拟合数据。[3][9]

线性概率模型的替代品 编辑

 
图 4:累积分布函数

为了避免LPM的局限性,我们需要一个模型,其中随着解释变量Xi的增加,Pi = E(Yi = 1 | Xi)应恒在0到1之间。因此,自变量和因变量之间的关系必然是非线性的。

为此,可以使用累积分布函数(CDF) 来估计虚拟因变量回归。图4显示了一条S形曲线,它类似于随机变量的累积分布函数。该模型中,概率在0和1之间,并且已经捕获了非线性关系。此时的问题就是如何选用累积分布函数。

可以使用两种替代性的CDF:逻辑斯谛英语Logistic distributionCDF和正态CDF。逻辑斯谛CDF产生逻辑斯谛模型,正态CDF产生概率单位模型英语Probit model[3]

逻辑斯谛模型 编辑

LPM的缺点促使人们开发了一种改良的模型,称为logit模型。该模型中,回归方程中误差项的累积分布是逻辑斯谛分布英语Logistic distribution[8]因为它是非线性的,其回归更接近现实。

使用最大似然法估计logit模型。该模型中,  ,即在给定自变量的情况下,因变量取值为1的概率为:

 

然后模型以让步比英语odds ratio的形式表示:逻辑斯谛回归(对数几率回归)中建模的是几率的自然对数,几率定义为  。取几率的自然对数,logit(Li)表示为

 

这种关系表明,LiXi呈线性关系,但概率与Xi呈非线性关系。[9]

概率单位模型 编辑

概率单位(probit)模型是为弥补LPM的缺点而提出的另一个模型。Probit模型使用与logit模型相同的非线性方法。但是,它使用正态CDF而不是逻辑CDF。[8]

参见 编辑

参考文献 编辑

  1. ^ Draper, N. R.; Smith, H. ‘Dummy’ Variables. Wiley. 1998: 299–326. ISBN 0-471-17082-8. 
  2. ^ (PDF). (原始内容 (PDF)存档于August 18, 2003). 
  3. ^ 3.00 3.01 3.02 3.03 3.04 3.05 3.06 3.07 3.08 3.09 3.10 Gujarati, Damodar N. Basic Econometrics. McGraw Hill. 2003. ISBN 0-07-233542-4. 
  4. ^ Kennedy, Peter. A Guide to Econometrics Fifth. Cambridge: The MIT Press. 2003: 249–250. ISBN 0-262-61183-X. 
  5. ^ 5.0 5.1 Wooldridge, Jeffrey M. Introductory econometrics: a modern approach. Cengage Learning. 2009: 865 [2022-07-22]. ISBN 978-0-324-58162-1. (原始内容于2022-07-22). 
  6. ^ Suits, Daniel B. Use of Dummy Variables in Regression Equations. Journal of the American Statistical Association. 1957, 52 (280): 548–551. JSTOR 2281705. doi:10.1080/01621459.1957.10501412. 
  7. ^ 7.0 7.1 Barreto, Humberto; Howland, Frank. Chapter 22: Dummy Dependent Variable Models. Cambridge University Press. 2005 [2022-07-22]. ISBN 0-521-84319-7. (原始内容于2021-10-17). 
  8. ^ 8.0 8.1 8.2 8.3 Maddala, G S. Introduction to econometrics. Macmillan Pub. Co. 1992: 631 [2022-07-22]. ISBN 0-02-374545-2. (原始内容于2022-07-22). 
  9. ^ 9.0 9.1 Adnan Kasman, Dummy Dependent Variable Models. [2022-07-22]. (原始内容于2021-04-30). 

延伸阅读 编辑

  • Asteriou, Dimitrios; Hall, S. G. Dummy Variables 3rd. London: Palgrave Macmillan. 2015: 209–230. ISBN 978-1-137-41546-2. 
  • Kooyman, Marius A. Dummy Variables in Econometrics. Tilburg: Tilburg University Press. 1976. ISBN 90-237-2919-6. 

外部链接 编辑

  • Maathuis, Marloes. (PDF). Stat 423: Applied Regression and Analysis of Variance. 2007. (原始内容 (PDF)存档于December 16, 2011). 
  • Fox, John. Dummy-Variable Regression (PDF). 2010 [2022-07-22]. (原始内容 (PDF)于2022-11-22). 
  • Baker, Samuel L. (PDF). 2006. (原始内容 (PDF)存档于March 1, 2006). 

虚拟变量, 英語, dummy, variable, 又稱哑变量, 指在统计学和计量经济学, 尤其是迴歸分析中僅取0或1的值, 以此表示某些可能改变结果的定性效应之有无的变量, 可以认为, 是回归模型中用数字来替代并表示定性事实, 从而将数据分为互斥的类别, 如吸烟者及非吸烟者, 虚拟自变量, 又称虚拟解释变量, 取值为0时, 该变量的系数对因变量没有影响, 而当取值为1时, 其系数会改变截距, 例如, 假定某人是否为某组的成员是与回归相关的定性变量之一, 如果属于该组成员以1代表, 则其他所有人获得0值, 此时截. 虚拟变量 英語 dummy variable 又稱哑变量 指在统计学和计量经济学 尤其是迴歸分析中僅取0或1的值 以此表示某些可能改变结果的定性效应之有无的变量 1 2 可以认为 虚拟变量是回归模型中用数字来替代并表示定性事实 从而将数据分为互斥的类别 如吸烟者及非吸烟者 3 虚拟自变量 又称虚拟解释变量 取值为0时 该变量的系数对因变量没有影响 而当虚拟变量取值为1时 其系数会改变截距 例如 假定某人是否为某组的成员是与回归相关的定性变量之一 如果属于该组成员以1代表 则其他所有人获得0值 此时截距对非成员是常数项 对成员则是常数项加上 成员 虚拟变量的系数 4 虚拟变量常用于时间序列分析 包括状态转换 季节性分析和定性数据应用 目录 1 引入虚拟自变量 2 方差分析模型 2 1 有一个定性变量的方差分析模型 2 2 有两个定性变量的方差分析模型 3 协方差分析模型 4 虚拟变量间的交互作用 5 虚拟因变量 5 1 因变量是虚拟变量的情景 5 2 虚拟因变量模型 5 2 1 线性概率模型 5 2 2 线性概率模型的替代品 5 2 3 逻辑斯谛模型 5 2 4 概率单位模型 6 参见 7 参考文献 8 延伸阅读 9 外部链接引入虚拟自变量 编辑 nbsp 图1 wage a0 d0female a1education U 的图像 其中d0 lt 0 回归模型中 引入虚拟变量的方式与引入定量变量 作为解释变量 的方式相同 例如 假设一个工资 wage 的明瑟回归模型 其中工资受性别 以female表示的虚拟变量 定性 和教育年限 education 定量 的影响 则 ln wage a 0 d 0 female a 1 education u displaystyle ln text wage alpha 0 delta 0 text female alpha 1 text education u nbsp 其中u N 0 s 2 displaystyle u sim N 0 sigma 2 nbsp 是误差项 在模型中 当一个人是女性时 female 1 当是男性时 female 0 d0 可以理解为教育条件一样时 女性和男性之间的工资差异 因此 d0 有助于确定男女之间的工资是否存在差异 例如 如果d0 gt 0 正系数 则女性的工资高于男性 其他因素不变 附加在虚拟变量前的系数称为差别截距系数 differential intercept coefficient 在模型的图像上 它可视为女性及男性之間截距的差異 图中显示的为d0 lt 0 男性的工资高于女性 的情形 5 虚拟变量可扩展到更為复杂的情況 例如通过替每个季节设置虚拟变量来捕捉季节效应 夏季时D 1 1 displaystyle D 1 1 nbsp 其他季节取0 秋季时D 2 1 displaystyle D 2 1 nbsp 冬季时D 3 1 displaystyle D 3 1 nbsp 春季时D 4 1 displaystyle D 4 1 nbsp 在面板数据中 可为横截面数据 如公司或国家 中的每个单位或汇总时间序列中的时期设置固定效应估计虚拟变量 在此種迴歸中 必須删除常数项或删除其中一個虚拟变量 将其作为评估其他类别的基本类别 以避免落入虚拟变量陷阱 dummy variable trap 所有回归方程中的常数项是一个系数乘以一个等于1的回归量 当回归表示为矩阵方程时 回归量矩阵由一列1 常数项 0和1向量 虚拟变量 以及其他回归量 若有 组成 例如 如果一个模型同时包含男性和女性虚拟变量 则这些向量的总和是全一向量 因为每个观察都要么归为男性 要么归为女性 因此 这个总和等于常数项的回归量 即第一个向量 结果 即使使用典型的伪逆法 回归方程也无法求解 换句话说 如果全一向量 常数项 回归量和一组穷举的虚拟变量同时存在 则会出现完全多重共线性 6 回归形成的方程组没有唯一解 此即虚拟变量陷阱 可通过删除常数项或其中一个有问题的虚拟变量以避免陷阱 而被删除的虚拟变量即作为与其他类别进行比较的基本类别 方差分析模型 编辑若一个回归模型中 因变量本质上是定量的 但所有解释变量都是虚拟变量 本质上是定性的 这种回归模型称为方差分析 ANOVA 模型 3 有一个定性变量的方差分析模型 编辑 假定我们要进行回归以了解公立学校教师的平均年薪在A国51个州的三个地理区域之间是否存在差异 其中这三个区域分别为 1 北部 21 个州 2 南部 17 个州 3 西部 13 个州 假设简单算术平均工资如下 24 424 14 北 22 894 南 26 158 62 西 其算术平均值不同 但它们在统计上是否有意义 为了比较平均值 可以使用方差分析技术 回归模型可以定义为 Y i a 1 a 2 D 2 i a 3 D 3 i u i displaystyle Y i alpha 1 alpha 2 D 2i alpha 3 D 3i u i nbsp 其中 Y i displaystyle Y i nbsp i州公立学校教师的平均年薪 若i州在北部地区 则D 2 i 1 displaystyle D 2i 1 nbsp 否则D 2 i 0 displaystyle D 2i 0 nbsp 除北部以外的任何地区 dd 若i州在南部地区 D 3 i 1 displaystyle D 3i 1 nbsp 否则D 3 i 0 displaystyle D 3i 0 nbsp dd 该模型中只有定性回归量 如果观测属于特定类别 则取值为1 如果属于任何其他类别 则取值为0 因此 它是一个方差分析模型 nbsp 图 2 方差分析模型示例回归结果的图像 A国3个地区公立学校教师的平均年薪 现在 考虑双方的期望值 可得到以下信息 北部地区公立学校教师平均工资 E Yi D2i 1 D3i 0 a1 a2 南部地区公立学校教师平均工资 E Yi D2i 0 D3i 1 a1 a3 西部地区公立学校教师平均工资 E Yi D2i 0 D3i 0 a1 期望值中不含误差项 因为我们假设它满足通常的普通最小二乘法条件 即E ui 0 期望值可以解释如下 西部公立学校教师的平均工资等于多元回归方程中的截距项a1 加上差别截距系数a2 和a3 后者解释为南部 北部地区的教师工资均值与西部地区相差多少 因此 北部和南部教师的平均工资与西部教师的平均工资进行比较 西部地区因此成为基准组 即与之进行比较的组 省略的组别 即没有分配虚拟变量的组别 作为基准组别 使用这些数据进行回归的结果为 Ŷi 26 158 62 1734 473D2i 3264 615D3i se 1128 523 1435 953 1499 615 t 23 1759 1 2078 2 1776 p 0 0000 0 2330 0 0349 R2 0 0901 其中 se 标准误差 t t统计量 英语 t statistic p p值 回归结果可以解释为 西部教师 基准组 的平均工资约为 26 158 与之相比 北部教师的工资低约 1734 26 158 62 1734 473 24 424 14 即平均工资北部教师的工资 南部教师的工资低约 3265 26 158 62 3264 615 22 894 即南部教师的平均工资 要确定南 北部教师的平均工资与西部教师的平均工资 比较组别 在统计学上是否有差异 我们必须找出回归结果的斜率系数是否具有统计学意义 为此 我们需要考虑p值 北部的估计斜率系数在统计上并不显着 因为它的p值为23 然而 南部的p值仅在3 5 左右 在5 的水平上具有统计显著性 因此 总体结果是 西部和北部教师的平均工资在统计上没有显著差异 但南部教师的平均工资在统计上比西部低 3265左右 模型如图2所示 该模型是一个方差分析模型 其中 一个定性变量具有3个类别 3 有两个定性变量的方差分析模型 编辑 考虑具有两个定性变量的方差分析模型 每个变量都有两个类别 因变量 时薪 使用定性变量 婚姻状况 已婚 未婚 和 地理区域 北部 非北部 来解释 其中 婚姻状况和地理区域是两个解释性虚拟变量 3 假设基于某些给定数据的回归输出如下所示 Ŷi 8 8148 1 0997D2 1 6729D3 其中 Y 为时薪 单位 D2 为婚姻状况 1 已婚 0 未婚 D3 为地理区域 1 北部 0 非北部 该模型为每个定性变量分配了一个虚拟变量 比每个变量中包含的类别数少一个 这里 基准组是省略的组别 未婚 非北方地区的人 所有比较都与该基准组或省略的组别相关 基准组的平均时薪约为 8 81 截距项 相比之下 已婚人士的平均时薪高出约 1 10 约为 9 91 8 81 1 10 相比之下 居住在北方的人的平均时薪低约 1 67 约为 7 14 8 81 1 67 一般来说 如果回归中包含一个以上的定性变量 则应选择一个省略的组别作为基准组 所有比较都与该组相关 截距项将显示基准组的期望值 斜率系数显示其他组别与基准 省略 组别的差异程度 3 协方差分析模型 编辑包含定量和定性变量的混合回归模型称为协方差分析 英语 Analysis of covariance ANCOVA 模型 协方差分析模型是方差分析模型的扩展 它们统计控制定量解释变量 也称为协变量或控制变量 的影响 3 为了说明如何包含定性和定量回归变量来形成协方差分析模型 假设我们考虑在方差分析模型中使用的相同示例 其中有一个定性变量 A国三个地理区域的公立学校教师的平均年薪 如果我们包括一个定量的变量 州政府对每名公立学校学生的财政支出 则这一回归中 可得到以下模型 nbsp 图3 协方差分析模型示例的回归结果 公立学校教师的年薪 Y 与公立学校每名学生的州财政支出之间的关系 Yi a1 a2D2i a3D3i a4Xi Ui 其中 Yi i州公立学校教师的平均年薪 Xi 公立学校每名学生的州财政支出 D2i 1 若i州在北部地区 否则D2i 0 dd D3i 1 若i州在南部地区 否则D3i 0 dd 假设这个模型的回归输出是 Ŷi 13 269 11 1673 514D2i 1144 157D3i 3 2889Xi 结果表明 公立学校每名学生的州财政支出每增加 1 公立学校教师的平均工资就会增加约 3 29 此外 对于北部地区的一个州 教师的平均工资比西部地区低约 1673 对于南部地区的一个州 教师的平均工资比西部地区低约 1144 图3描绘了该模型 假设支出系数不因州而异 则平均工资线彼此平行 图中分别显示了每个类别中 两个定量变量之间的关系 即公立学校教师的工资 Y 与公立学校每名学生的州财政支出 X 之间的关系 3 虚拟变量间的交互作用 编辑回归模型中的定量回归变量通常存在交互作用 同样 定性的回归变量 即虚拟变量之间也可能有交互作用 这些交互作用可在回归模型中描述 例如 在涉及工资确定的回归中 如果考虑两个定性变量 性别和婚姻状况 则婚姻状况和性别之间可能存在交互作用 5 这些交互作用可以在回归方程中显示 如下例所示 由于两定性变量是性别和婚姻状况 定量的解释变量是受教育年限 解释变量纯线性的回归将是 Yi b1 b2D2 i b3D3 i aXi Ui 其中 i 表示某个特定个人 Y 时薪 单位 X 受教育年限 D2 1若为女性 否则为0 D3 1若已婚 否则为0 这一模型无法表达两个定性变量D2 和D3 之间发生交互作用的可能性 例如 已婚女性的工资与未婚男性的工资差异 其数额与单独为女性和单独为已婚的差值之和不同 为了考虑这种可能性 工资的确定可以指定为 Yi b1 b2D2 i b3D3 i b4 D2 iD3 i aXi Ui 其中 b2 作为女性的差别效应 b3 已婚的差别效应 b4 女性且已婚的进一步差别效应 根据该等式 在没有非零误差的情况下 未婚男性的工资为b1 aXi 未婚女性的工资为b1 b2 aXi 已婚男性的工资为b1 b3 aXi 而已婚女性的比例是b1 b2 b3 b4 aXi 其中任何虚拟变量系数的估计值都可能是为正 零 或负 由此 交互虚拟变量 两个虚拟变量的乘积 会改变因变量 使之与单独考虑两个虚拟变量时得到的值有所不同 3 或者 可以通过使用不同的数据分类方案来避免使用虚拟变量的乘积来表达交互作用 即使用根据特征组合指定组别的方案 如果令 D4 1若为未婚女性 否则为0 D5 1若为已婚男性 否则为0 D6 1若为已婚女性 否则为0 那么仅需指定如下回归 Yi d1 d4D4 i d5D5 i d6D6 i aXi Ui 那么在零误差项下 因变量的值是对于基准组未婚男性为d1 aXi 对于未婚女性为d1 d4 aXi 对于已婚男性为d1 d5 aXi 对于已婚女性为d1 d6 aXi 该方法在等号右侧使用的变量数与先前具有交互项的方法相同 并且使用本方法还是指定交互项目的方法 对于Xi 下任意定性特征组合下的因变量预测值 给出的回归结果是相同的 虚拟因变量 编辑因变量是虚拟变量的情景 编辑 具有虚拟因变量 也称为定性因变量 的模型中 因变量受解释变量的影响是定性的 例如 一些关于执行 多少 行为的决定涉及事先决定是否执行该行为 事前决策 的回归在回归模型中有一个因虚拟变量 7 例如 潜在工人成为劳动力一部分的决策是一个虚拟因变量 该决策是二分的 即有两种可能的结果 是和否 因此 虚拟因变量Participation在 参与 时取值为1 不参与 则取值为0 3 下面给出其他一些二元的虚拟因变量的例子 决策 职业选择 虚拟因变量 若选择成为高管 则 高管 1 否则为0 决策 隶属于某政党 虚拟因变量 若隶属于某政党 则 隶属 1 不加入则为0 决策 退休 虚拟因变量 若已退休 则 退休 1 0表示未退休 当虚拟因变量具有两个以上的值时 例如隶属于多个政党 它就变成了多响应 或多项式 多叉分枝 模型 7 虚拟因变量模型 编辑 虚拟因变量模型的分析有不同的方法 其中一种是通常的普通最小二乘法 在该情景下称为线性概率模型 英语 linear probability model 另一种方法是假设存在一个不可观察的连续潜变量Y 如果Y gt 0 则观察到的二分变量Y 1 否则为0 这是逻辑斯谛和概率单位模型 英语 Probit model 的基本理念 这些模型将在下面简要讨论 8 线性概率模型 编辑 普通最小二乘法模型中 若因变量Y 是二分的虚拟变量 取值0或1 则称该模型为线性概率模型 英语 linear probability model LPM 8 假设考虑以下回归 Y i a 1 a 2 X i u i displaystyle Y i alpha 1 alpha 2 X i u i nbsp 其中z i a 1 a 2 X i u i displaystyle z i alpha 1 alpha 2 X i u i nbsp X displaystyle X nbsp 家庭收入 Y 1 displaystyle Y 1 nbsp 若住房为家庭自有 0若住房非家庭自有 该模型称为线性概率模型 是因为回归是线性的 给定Xi 条件下的Yi 的条件均值记作E Y i X i displaystyle mathbb E Y i X i nbsp 可解释为在相应Xi 值下 事件发生的条件概率 即Pr Yi 1 Xi 在这个例子中 E Y i X i displaystyle mathbb E Y i X i nbsp 表示的是当家庭收入为Xi 时 一个家庭自有住房的概率 此时 使用普通最小二乘法的假设E u i X i 0 displaystyle E u i X i 0 nbsp 可得到 E Y i X i a 1 a 2 X i displaystyle mathbb E Y i X i alpha 1 alpha 2 X i nbsp LPM模型中存在一些固有问题 回归线无法做到拟合良好 因此诸如R2 之类的显著性度量将不可靠 使用LPM方法分析的模型有异方差干扰 误差项有非正态分布 LPM可能会给出大于1或小于0的因变量的预测值 这将很难作出解释 因为预测值是概率 必须介于0和1之间 LPM模型的变量之间可能存在非线性关系 在这种情况下 线性回归将无法准确拟合数据 3 9 线性概率模型的替代品 编辑 nbsp 图 4 累积分布函数 为了避免LPM的局限性 我们需要一个模型 其中随着解释变量Xi 的增加 Pi E Yi 1 Xi 应恒在0到1之间 因此 自变量和因变量之间的关系必然是非线性的 为此 可以使用累积分布函数 CDF 来估计虚拟因变量回归 图4显示了一条S形曲线 它类似于随机变量的累积分布函数 该模型中 概率在0和1之间 并且已经捕获了非线性关系 此时的问题就是如何选用累积分布函数 可以使用两种替代性的CDF 逻辑斯谛 英语 Logistic distribution CDF和正态CDF 逻辑斯谛CDF产生逻辑斯谛模型 正态CDF产生概率单位模型 英语 Probit model 3 逻辑斯谛模型 编辑 LPM的缺点促使人们开发了一种改良的模型 称为logit模型 该模型中 回归方程中误差项的累积分布是逻辑斯谛分布 英语 Logistic distribution 8 因为它是非线性的 其回归更接近现实 使用最大似然法估计logit模型 该模型中 P Y 1 X displaystyle P Y 1 X nbsp 即在给定自变量的情况下 因变量取值为1的概率为 P i 1 1 e z i e z i 1 e z i displaystyle P i frac 1 1 e z i frac e z i 1 e z i nbsp 然后模型以让步比 英语 odds ratio 的形式表示 逻辑斯谛回归 对数几率回归 中建模的是几率的自然对数 几率定义为P 1 P displaystyle P 1 P nbsp 取几率的自然对数 logit Li 表示为 L i ln P i 1 P i z i a 1 a 2 X i displaystyle L i ln left frac P i 1 P i right z i alpha 1 alpha 2 X i nbsp 这种关系表明 Li 与Xi 呈线性关系 但概率与Xi 呈非线性关系 9 概率单位模型 编辑 概率单位 probit 模型是为弥补LPM的缺点而提出的另一个模型 Probit模型使用与logit模型相同的非线性方法 但是 它使用正态CDF而不是逻辑CDF 8 参见 编辑二元回归 英语 Binary regression 邹检验 假說檢定 指示函数 線性判別分析 多重共线性参考文献 编辑 Draper N R Smith H Dummy Variables Wiley 1998 299 326 ISBN 0 471 17082 8 Interpreting the Coefficients on Dummy Variables PDF 原始内容 PDF 存档于August 18 2003 3 00 3 01 3 02 3 03 3 04 3 05 3 06 3 07 3 08 3 09 3 10 Gujarati Damodar N Basic Econometrics McGraw Hill 2003 ISBN 0 07 233542 4 Kennedy Peter A Guide to Econometrics Fifth Cambridge The MIT Press 2003 249 250 ISBN 0 262 61183 X 5 0 5 1 Wooldridge Jeffrey M Introductory econometrics a modern approach Cengage Learning 2009 865 2022 07 22 ISBN 978 0 324 58162 1 原始内容存档于2022 07 22 Suits Daniel B Use of Dummy Variables in Regression Equations Journal of the American Statistical Association 1957 52 280 548 551 JSTOR 2281705 doi 10 1080 01621459 1957 10501412 7 0 7 1 Barreto Humberto Howland Frank Chapter 22 Dummy Dependent Variable Models Cambridge University Press 2005 2022 07 22 ISBN 0 521 84319 7 原始内容存档于2021 10 17 8 0 8 1 8 2 8 3 Maddala G S Introduction to econometrics Macmillan Pub Co 1992 631 2022 07 22 ISBN 0 02 374545 2 原始内容存档于2022 07 22 9 0 9 1 Adnan Kasman Dummy Dependent Variable Models 2022 07 22 原始内容存档于2021 04 30 延伸阅读 编辑Asteriou Dimitrios Hall S G Dummy Variables 3rd London Palgrave Macmillan 2015 209 230 ISBN 978 1 137 41546 2 Kooyman Marius A Dummy Variables in Econometrics Tilburg Tilburg University Press 1976 ISBN 90 237 2919 6 外部链接 编辑 nbsp 維基學院中的相關研究或學習資源 虚拟变量 Maathuis Marloes Chapter 7 Dummy variable regression PDF Stat 423 Applied Regression and Analysis of Variance 2007 原始内容 PDF 存档于December 16 2011 Fox John Dummy Variable Regression PDF 2010 2022 07 22 原始内容存档 PDF 于2022 11 22 Baker Samuel L Dummy Variables PDF 2006 原始内容 PDF 存档于March 1 2006 取自 https zh wikipedia org w index php title 虚拟变量 amp oldid 79050592, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。