fbpx
维基百科

主成分回归

统计学中,主成分回归(PCR)是一种基于主成分分析(PCA)的回归分析方法。更确切地说,PCR用于估计标准线性回归模型中的未知参数。

PCR不是直接将因变量与解释变量进行回归,而是将解释变量的主成分作为回归量。一般只使用所有主成分的一个子集用于回归,因此PCR是一种正则化过程,也是一种收缩估计量。

方差更高的主成分(基于解释变量样本方差-协方差矩阵对应更大特征值的特征向量)被选为回归量。不过,要预测结果,低方差的主成分可能也很重要,在某些情况下甚至更重要。[1]

PCR的主要用途之一是克服多重共线性问题,这是说多个解释变量接近共线[2]PCR可在回归步骤中排除一些低方差主成分,从而恰当地处理这种情况。另外,由于通常只对所有主成分的一个子集进行回归,PCR可大幅降低基础模型的参数数,从而降维。这在使用高维协变量时尤为有用。通过适当选择用于回归的主成分,PCR还可根据假定模型有效地预测输出。

原理 编辑

PCR法可总结为三步:

1.  对解释变量的测得设计矩阵进行PCA,得到主成分,然后(通常)根据一些适当标准,从获得的主成分中选择子集,供进一步使用。
2.  普通最小二乘法,在选定主成分上线性回归输出的测得向量,得到估计回归系数向量(维数等于选定的主成分数)。
3.  PCA负载(与选定主成分对应的特征向量)将该向量变换回实际协变量标量,得到最终PCR估计量(维数等于协变量总数),以估计表征原始模型的回归系数。

方法细节 编辑

数据表示: 表示观测的输出, 表示测得协变量对应的设计矩阵,其中  表示测得样本的大小和协变量数量。 的每行 表示 维协变量的一组观测值, 的相应项表示相应的观测结果。

数据预处理:假设   列已经中心化,经验均值均为0。中心化这步至关重要(至少对 的列而言),因为PCR将对 使用的PCA on  对数据是否中心化十分敏感。

基础模型:在中心化之后,对 上的 的标准高斯-马尔可夫线性回归模型可表为: 其中 表示回归系数的未知参数向量, 表示随机误差向量,  则表示未知方差参数 

目标:主要目标是根据数据,为参数 获得有效估计量 。一种常用方法是普通最小二乘法,假设 列满秩,从而有 无偏估计量 。PCR是另一种估计 的方法。

PCA步骤:PCR首先要对中心化矩阵 进行PCA。为此,令 表示 奇异值分解,其中 表示 的非负奇异值,  都是正交规范集向量,列向量分别表示 的左右奇异向量。

主成分: 给出了 谱分解,其中 表示 的非负特征值(也叫做主值), 的列则表示对应的特征向量的正交规范集。接着,  分别表示第 个主成分与跟第 大的主成分值  相对应的第 个主成分方向(或PCA负载)。

衍生协变量: ,记  矩阵,其正交列包含 的前 列。记 为以前 个主成分为列的 矩阵。 可看做是用变换后的协变量 得到的设计矩阵,而非原始协变量 

PCR估计量: 表示 响应向量 在设计矩阵 上用普通最小二乘法得到的估计回归系数向量。那么, 都有基于前 个主成分的 的最终PCR估计量: 

PCR估计量的基本特征与应用 编辑

两个基本性质 编辑

得到PCR估计量的拟合过程包括将响应向量在导出设计矩阵 上回归。后者 都有正交列,因为主成分互相正交。因此在回归中,对作为协变量的 个选定主成分联合进行多元线性回归,相当于对作为协变量的 个选定主成分分别进行独立单变量线性回归。

当选择所有主成分回归( ),PCR估计量便等同于普通最小二乘法估计量。因此 。从  正交矩阵的观测事实,不难看出这点。

方差降低 编辑

  的方差由下式给出:

 

特别地:

 

因此 都有:

 

因此 都有:

 

其中 ,表明对称方阵 是非负定的。于是,与普通最小二乘估计的线性形式相比,任何给定PCR估计量的线性形式都有更低的方差。

解决多重共线性问题 编辑

多重共线性条件下,指多个协变量高度相关,因此可从其他协变量以非平凡的精度进行线性预测。因此,设计矩阵 与这些协变量对应的列趋于线性相关,于是 趋于秩亏,失去列满秩结构。更定量地讲,这时 的较小特征值会非常接近 。上述方差表达式表明,极小特征值对最小二乘估计量产生最大的方差扩大效应,因此在接近0时会严重破坏估计量的稳定性。这可以通过排除极小特征值对应的主成分得到的PCR估计,得到有效解决。

降维 编辑

PCR也可用于降维:记 为任意列正交的 矩阵。假设现在我们想通过 线性变换  )来近似每个协变量观测值 ,那么可以证明

 

 (前 个主成分方向为列组成的矩阵)和 (对应的 维衍生协变量)时取最小值。因此 维主成分提供了观测设计矩阵 的秩为 的最佳线性近似,对应的重建误差

 

因此,可通过选择 值(即要使用的主成分数),通过对 的特征值累积和进行适当阈值处理,实现降维。由于较小特征值对累积和的贡献并不大,因此只要不超过所需的阈值限制,便可放弃相应的主成分。同样标准也可用于解决多重共线性问题:只要保持阈值限制,就可忽略较小特征值对应的主成分。

正则化效应 编辑

由于PCR估计量通常只使用一部分主成分进行回归,因此可视作某种正则化。更具体地说, ,PCR估计量 都可表示以下约束最小化问题的正则化解:

 

约束可等价写作

 

其中

 

因此,当择一部分主成分回归时,所得PCR估计量是基于硬形式的正则化,将所得解约束在选定主成分方向的列空间,因此限制其与被排除方向正交。

一类正则化估计量中PCR的最优性 编辑

给定如上述的约束最小化问题,考虑下面的推广:

 

其中 表示任何阶为 的列满秩矩阵。令 表示对应的解,则

 

则约束矩阵 的最优选择就是相应估计量 达到最小预测误差:[3]

 

其中

 

很明显,由此得到的最优估计量 就是基于前 个主成分的PCR估计量 

效率 编辑

由于普通最小二乘估计量对 无偏,所以有

 

其中MSE表示均方误差。现在,若对某个 ,我们还有 ,那么对应的 也将是 的无偏估计量,就有

 

我们已经知道

 

这就意味着对特定的 有:

 

所以,用均方误差为标准的话,对应的 是比 更有效的 的估计量。另外,与 的相同线性形式相比,对应 的任何给定线性形式的均方误差也更小。 现在假设,对给定的 ,那么对应的  就是有偏的。但由于

 

 仍然是可能的,尤其是当 使被排除主成分对应较小特征值时,从而导致较小的偏。

为确保PCR作为 估计值的效率与性能,Park (1981) [3]提出了以下用于回归的主成分选择标准:当且仅当 时,排除第 个主成分。在实际应用中,还需要估计未知的模型参数  。总的来说,可以用从原始完整模型得到的无约束最小二乘法进行估计。Park (1981)提供了一套稍加修改的估计值,可能更适合这一目的。[3]

与基于 特征值累积和的标准不同,上述标准可能更适合解决多重共线性问题与降维,实际上是试图让输出和协变量都参与到回归的主成分选择之中,以提高PCR估计值的预测与估计效率。其他目的相似的选择主成分方法基于交叉验证,或马洛斯CP值等。通常,主成分的选择还基于其与输出的相关程度

PCR的收缩效应 编辑

总的来说,PCR本质上是收缩估计量,通常保留了高方差主成分(对应 的较大特征值)作为模型中的协变量,并舍弃剩余的低方差成分(对应 的较小特征值)。这就对低方差成分产生了分离收缩,清除了其在原始模型中的贡献。相对地,岭回归估计量则通过其构造中固有的正则化参数,产生平滑收缩。虽然它不会舍弃任何一个成分,但会以连续的方式对所有成分产生收缩效应,因此低方差成分的收缩程度高于高方差成分。Frank & Friedman (1993)[4]认为,就预测本身而言,与具有离散收缩效应的PCR估计量相比,岭估计量具有平滑收缩效应,可能是更好的选择。

此外,主成分是从 特征分解中得到的,只涉及解释变量的观测值。因此,以这些主成分为协变量得到的PCR估计量不一定具有令人满意的预测性能。偏最小二乘回归(PLS)估计量与之比较相似,试图通过自身的构造解决这问题。PLS也用低维的衍生协变量,但是在输出和协变量中获得的。PCR在协变量空间中寻找高方差方向,而PLS则寻找对预测结果最有用的方向。

2006年,有人提出了经典PCR的一种变体,即监督PCR[5]这种方法的精神与PLS类似,试图根据结果和协变量标准,获得低维衍生协变量。首先进行简单线性回归(单变量回归),其中结果向量分别对 个协变量逐一回归。然后,对某个 ,选择与结果最相关的 个协变量(基于对应估计回归系数的显著程度)供进一步使用。然后进行上述传统PCR,但只基于与选定协变量观测值对应的 设计矩阵。使用的协变量数: 及随后使用的主成分数: 一般通过交叉验证选择。

核设置的推广 编辑

上述经典PCR法基于经典PCA,并考虑了根据协变量的线性回归结果预测模型。这方法可以很容易地推广到核机设置,即回归函数不一定是协变量的线性函数,而可以属于与任意(可以非线性)对称正定核有关的再⽣核希尔伯特空间。核函数选为线性核时便有线性回归模型,是这种设置的特例。

总的来说,在核机设置下,协变量向量首先被映射到所选核函数的高维(可能是无限维)特征空间中。这样得到的映射叫做特征映射,每个坐标(也叫做特征元)对应协变量的一个特征(无所谓线性与否)。然后,假设回归函数是这些特征元的线性组合,则核机设置依赖的回归模型本质上是线性的,但前提是预测量不再是原始协变量集,而由特征映射所得协变量的特征元的向量(可能是无限维)给出。 但核技巧实际上可以让我们在特征空间中操作,而无需明确计算特征映射。事实证明,只需计算观测协变量向量的特征映射之间的逐对内积即可,是由在相应协变量向量对上估值的核函数值简单给出的。因此,得到的逐对内积可用 对称非负定矩阵(也称为核矩阵)表示。 核机设置中的PCR现在可用以下方式实现:首先将核矩阵(如K)相对于特征空间适当中心化,再对中心化核矩阵(如K')进行核主成分分析,得到K'的特征分解。然后,核PCR(通常)会从获得的所有特征向量中(一般通过交叉验证)选择一子集,在其上进行结果向量的标准线性回归。估计的回归系数(维度与选定特征向量数相同)与响应所选特征向量一起用于预测未来的观测结果。机器学习中,这技巧也被称为“谱回归”。

显然,核PCR对K'的特征向量具有离散收缩,与前面讨论过的经典PCR对主成分的离散收缩十分相似。然而,与核相关的特征映射可能是无限维的,因此相应的主成分及其方向也可能是无限维的。所以,在核机设置下,这些量实际上往往难以处理。核PCR基本上是基于相关核矩阵的谱分解,以考虑等效的对偶表述,来解决这一问题。在线性回归模型下(对应于选择核函数为线性核),这相当于考虑对应的 核矩阵 的谱分解,然后将结果向量回归到得到的 的选定特征向量子集上。很容易看出,这等同于将结果向量回归到相应主成分上(这时是有限维),正如经典PCR定义的那样。因此,对线性核,基于对偶表示的核PCR完全等同于基于原始公式的经典PCR。然而,对任意(可能非线性)核,由于相关特征映射可能的无限维,这种原始公式可能会变得难以处理。因此,这时经典PCR实际上不可行,但基于对偶表示的核PCR仍有效,且在计算上可推广。

另见 编辑

参考文献 编辑

  1. ^ Jolliffe, Ian T. A note on the Use of Principal Components in Regression. Journal of the Royal Statistical Society, Series C. 1982, 31 (3): 300–303. JSTOR 2348005. doi:10.2307/2348005. 
  2. ^ Dodge, Y. (2003) The Oxford Dictionary of Statistical Terms, OUP. ISBN 0-19-920613-9
  3. ^ 3.0 3.1 3.2 Sung H. Park. Collinearity and Optimal Restrictions on Regression Parameters for Estimating Responses. Technometrics. 1981, 23 (3): 289–295. doi:10.2307/1267793. 
  4. ^ Lldiko E. Frank & Jerome H. Friedman. A Statistical View of Some Chemometrics Regression Tools. Technometrics. 1993, 35 (2): 109–135. doi:10.1080/00401706.1993.10485033. 
  5. ^ Eric Bair; Trevor Hastie; Debashis Paul; Robert Tibshirani. Prediction by Supervised Principal Components. Journal of the American Statistical Association. 2006, 101 (473): 119–137. CiteSeerX 10.1.1.516.2313 . doi:10.1198/016214505000000628. 

阅读更多 编辑

主成分回归, 统计学中, 是一种基于主成分分析, 的回归分析方法, 更确切地说, pcr用于估计标准线性回归模型中的未知参数, pcr不是直接将因变量与解释变量进行回归, 而是将解释变量的主成分作为回归量, 一般只使用所有主成分的一个子集用于回归, 因此pcr是一种正则化过程, 也是一种收缩估计量, 方差更高的主成分, 基于解释变量样本方差, 协方差矩阵对应更大特征值的特征向量, 被选为回归量, 不过, 要预测结果, 低方差的主成分可能也很重要, 在某些情况下甚至更重要, pcr的主要用途之一是克服多重共线性问题,. 统计学中 主成分回归 PCR 是一种基于主成分分析 PCA 的回归分析方法 更确切地说 PCR用于估计标准线性回归模型中的未知参数 PCR不是直接将因变量与解释变量进行回归 而是将解释变量的主成分作为回归量 一般只使用所有主成分的一个子集用于回归 因此PCR是一种正则化过程 也是一种收缩估计量 方差更高的主成分 基于解释变量样本方差 协方差矩阵对应更大特征值的特征向量 被选为回归量 不过 要预测结果 低方差的主成分可能也很重要 在某些情况下甚至更重要 1 PCR的主要用途之一是克服多重共线性问题 这是说多个解释变量接近共线 2 PCR可在回归步骤中排除一些低方差主成分 从而恰当地处理这种情况 另外 由于通常只对所有主成分的一个子集进行回归 PCR可大幅降低基础模型的参数数 从而降维 这在使用高维协变量时尤为有用 通过适当选择用于回归的主成分 PCR还可根据假定模型有效地预测输出 目录 1 原理 2 方法细节 3 PCR估计量的基本特征与应用 3 1 两个基本性质 3 2 方差降低 3 3 解决多重共线性问题 3 4 降维 3 5 正则化效应 3 6 一类正则化估计量中PCR的最优性 3 7 效率 3 8 PCR的收缩效应 4 核设置的推广 5 另见 6 参考文献 7 阅读更多原理 编辑PCR法可总结为三步 1 displaystyle nbsp 对解释变量的测得设计矩阵进行PCA 得到主成分 然后 通常 根据一些适当标准 从获得的主成分中选择子集 供进一步使用 2 displaystyle nbsp 用普通最小二乘法 在选定主成分上线性回归输出的测得向量 得到估计回归系数向量 维数等于选定的主成分数 3 displaystyle nbsp 用PCA负载 与选定主成分对应的特征向量 将该向量变换回实际协变量标量 得到最终PCR估计量 维数等于协变量总数 以估计表征原始模型的回归系数 方法细节 编辑数据表示 令Yn 1 y1 yn T displaystyle mathbf Y n times 1 left y 1 ldots y n right T nbsp 表示观测的输出 Xn p x1 xn T displaystyle mathbf X n times p left mathbf x 1 ldots mathbf x n right T nbsp 表示测得协变量对应的设计矩阵 其中n displaystyle n nbsp p n p displaystyle p n geq p nbsp 表示测得样本的大小和协变量数量 X displaystyle mathbf X nbsp 的每行n displaystyle n nbsp 表示p displaystyle p nbsp 维协变量的一组观测值 Y displaystyle mathbf Y nbsp 的相应项表示相应的观测结果 数据预处理 假设Y displaystyle mathbf Y nbsp 及X displaystyle mathbf X nbsp 的p displaystyle p nbsp 列已经中心化 经验均值均为0 中心化这步至关重要 至少对X displaystyle mathbf X nbsp 的列而言 因为PCR将对X displaystyle mathbf X nbsp 使用的PCA on X displaystyle mathbf X nbsp 对数据是否中心化十分敏感 基础模型 在中心化之后 对X displaystyle mathbf X nbsp 上的Y displaystyle mathbf Y nbsp 的标准高斯 马尔可夫线性回归模型可表为 Y Xb e displaystyle mathbf Y mathbf X boldsymbol beta boldsymbol varepsilon nbsp 其中b Rp displaystyle boldsymbol beta in mathbb R p nbsp 表示回归系数的未知参数向量 e displaystyle boldsymbol varepsilon nbsp 表示随机误差向量 E e 0 displaystyle operatorname E left boldsymbol varepsilon right mathbf 0 nbsp Var e s2In n displaystyle operatorname Var left boldsymbol varepsilon right sigma 2 I n times n nbsp 则表示未知方差参数s2 gt 0 displaystyle sigma 2 gt 0 nbsp 目标 主要目标是根据数据 为参数b displaystyle boldsymbol beta nbsp 获得有效估计量b displaystyle widehat boldsymbol beta nbsp 一种常用方法是普通最小二乘法 假设X displaystyle mathbf X nbsp 的列满秩 从而有b displaystyle boldsymbol beta nbsp 的无偏估计量 b ols XTX 1XTY displaystyle widehat boldsymbol beta mathrm ols mathbf X T mathbf X 1 mathbf X T mathbf Y nbsp PCR是另一种估计b displaystyle boldsymbol beta nbsp 的方法 PCA步骤 PCR首先要对中心化矩阵X displaystyle mathbf X nbsp 进行PCA 为此 令X UDVT displaystyle mathbf X U Delta V T nbsp 表示X displaystyle mathbf X nbsp 的奇异值分解 其中Dp p diag d1 dp d1 dp 0 displaystyle Delta p times p operatorname diag left delta 1 ldots delta p right delta 1 geq cdots geq delta p geq 0 nbsp 表示X displaystyle mathbf X nbsp 的非负奇异值 Un p u1 up displaystyle U n times p mathbf u 1 ldots mathbf u p nbsp Vp p v1 vp displaystyle V p times p mathbf v 1 ldots mathbf v p nbsp 都是正交规范集向量 列向量分别表示X displaystyle mathbf X nbsp 的左右奇异向量 主成分 VLVT displaystyle V Lambda V T nbsp 给出了XTX displaystyle mathbf X T mathbf X nbsp 的谱分解 其中Lp p diag l1 lp diag d12 dp2 D2 l1 lp 0 displaystyle Lambda p times p operatorname diag left lambda 1 ldots lambda p right operatorname diag left delta 1 2 ldots delta p 2 right Delta 2 lambda 1 geq cdots geq lambda p geq 0 nbsp 表示XTX displaystyle mathbf X T mathbf X nbsp 的非负特征值 也叫做主值 V displaystyle V nbsp 的列则表示对应的特征向量的正交规范集 接着 Xvj displaystyle mathbf X mathbf v j nbsp vj displaystyle mathbf v j nbsp 分别表示第j displaystyle j nbsp 个主成分与跟第j displaystyle j nbsp 大的主成分值 j 1 p lj displaystyle forall j in 1 ldots p lambda j nbsp 相对应的第j displaystyle j nbsp 个主成分方向 或PCA负载 衍生协变量 k 1 p displaystyle forall k in 1 ldots p nbsp 记Vk displaystyle V k nbsp 为p k displaystyle p times k nbsp 矩阵 其正交列包含V displaystyle V nbsp 的前k displaystyle k nbsp 列 记Wk XVk Xv1 Xvk displaystyle W k mathbf X V k mathbf X mathbf v 1 ldots mathbf X mathbf v k nbsp 为以前k displaystyle k nbsp 个主成分为列的n k displaystyle n times k nbsp 矩阵 W displaystyle W nbsp 可看做是用变换后的协变量xik VkTxi Rk displaystyle mathbf x i k V k T mathbf x i in mathbb R k nbsp 得到的设计矩阵 而非原始协变量xi Rp 1 i n displaystyle mathbf x i in mathbb R p forall 1 leq i leq n nbsp PCR估计量 记g k WkTWk 1WkTY Rk displaystyle widehat gamma k W k T W k 1 W k T mathbf Y in mathbb R k nbsp 表示 响应向量Y displaystyle mathbf Y nbsp 在设计矩阵Wk displaystyle W k nbsp 上用普通最小二乘法得到的估计回归系数向量 那么 k 1 p displaystyle forall k in 1 ldots p nbsp 都有基于前k displaystyle k nbsp 个主成分的b displaystyle boldsymbol beta nbsp 的最终PCR估计量 b k Vkg k Rp displaystyle widehat boldsymbol beta k V k widehat gamma k in mathbb R p nbsp PCR估计量的基本特征与应用 编辑两个基本性质 编辑 得到PCR估计量的拟合过程包括将响应向量在导出设计矩阵Wk displaystyle W k nbsp 上回归 后者 k 1 p displaystyle forall k in 1 ldots p nbsp 都有正交列 因为主成分互相正交 因此在回归中 对作为协变量的k displaystyle k nbsp 个选定主成分联合进行多元线性回归 相当于对作为协变量的k displaystyle k nbsp 个选定主成分分别进行独立单变量线性回归 当选择所有主成分回归 k p displaystyle k p nbsp PCR估计量便等同于普通最小二乘法估计量 因此b p b ols displaystyle widehat boldsymbol beta p widehat boldsymbol beta mathrm ols nbsp 从Wp XVp XV displaystyle W p mathbf X V p mathbf X V nbsp 和V displaystyle V nbsp 是正交矩阵的观测事实 不难看出这点 方差降低 编辑 k 1 p displaystyle forall k in 1 ldots p nbsp b k displaystyle widehat boldsymbol beta k nbsp 的方差由下式给出 Var b k s2Vk WkTWk 1VkT s2Vkdiag l1 1 lk 1 VkT s2 j 1k vjvjTlj displaystyle operatorname Var widehat boldsymbol beta k sigma 2 V k W k T W k 1 V k T sigma 2 V k operatorname diag left lambda 1 1 ldots lambda k 1 right V k T sigma 2 sideset sum j 1 k frac mathbf v j mathbf v j T lambda j nbsp 特别地 Var b p Var b ols s2 j 1p vjvjTlj displaystyle operatorname Var widehat boldsymbol beta p operatorname Var widehat boldsymbol beta mathrm ols sigma 2 sideset sum j 1 p frac mathbf v j mathbf v j T lambda j nbsp 因此 k 1 p 1 displaystyle forall k in 1 ldots p 1 nbsp 都有 Var b ols Var b k s2 j k 1p vjvjTlj displaystyle operatorname Var widehat boldsymbol beta mathrm ols operatorname Var widehat boldsymbol beta k sigma 2 sideset sum j k 1 p frac mathbf v j mathbf v j T lambda j nbsp 因此 k 1 p displaystyle forall k in 1 ldots p nbsp 都有 Var b ols Var b k 0 displaystyle operatorname Var widehat boldsymbol beta mathrm ols operatorname Var widehat boldsymbol beta k succeq 0 nbsp 其中A 0 displaystyle A succeq 0 nbsp 表明对称方阵A displaystyle A nbsp 是非负定的 于是 与普通最小二乘估计的线性形式相比 任何给定PCR估计量的线性形式都有更低的方差 解决多重共线性问题 编辑 多重共线性条件下 指多个协变量高度相关 因此可从其他协变量以非平凡的精度进行线性预测 因此 设计矩阵X displaystyle mathbf X nbsp 与这些协变量对应的列趋于线性相关 于是X displaystyle mathbf X nbsp 趋于秩亏 失去列满秩结构 更定量地讲 这时XTX displaystyle mathbf X T mathbf X nbsp 的较小特征值会非常接近0 displaystyle 0 nbsp 上述方差表达式表明 极小特征值对最小二乘估计量产生最大的方差扩大效应 因此在接近0时会严重破坏估计量的稳定性 这可以通过排除极小特征值对应的主成分得到的PCR估计 得到有效解决 降维 编辑 PCR也可用于降维 记Lk displaystyle L k nbsp 为任意列正交的p k k 1 p displaystyle p times k forall k in 1 ldots p nbsp 矩阵 假设现在我们想通过秩k displaystyle k nbsp 线性变换Lkzi displaystyle L k mathbf z i nbsp zi Rk 1 i n displaystyle mathbf z i in mathbb R k 1 leq i leq n nbsp 来近似每个协变量观测值xi displaystyle mathbf x i nbsp 那么可以证明 i 1n xi Lkzi 2 displaystyle sum i 1 n left mathbf x i L k mathbf z i right 2 nbsp 在Lk Vk displaystyle L k V k nbsp 前k displaystyle k nbsp 个主成分方向为列组成的矩阵 和zi xik VkTxi displaystyle mathbf z i mathbf x i k V k T mathbf x i nbsp 对应的k displaystyle k nbsp 维衍生协变量 时取最小值 因此k displaystyle k nbsp 维主成分提供了观测设计矩阵X displaystyle mathbf X nbsp 的秩为k displaystyle k nbsp 的最佳线性近似 对应的重建误差为 i 1n xi Vkxik 2 j k 1nlj1 k lt p0k p displaystyle sum i 1 n left mathbf x i V k mathbf x i k right 2 begin cases sum j k 1 n lambda j amp 1 leqslant k lt p 0 amp k p end cases nbsp 因此 可通过选择k displaystyle k nbsp 值 即要使用的主成分数 通过对XTX displaystyle mathbf X T mathbf X nbsp 的特征值累积和进行适当阈值处理 实现降维 由于较小特征值对累积和的贡献并不大 因此只要不超过所需的阈值限制 便可放弃相应的主成分 同样标准也可用于解决多重共线性问题 只要保持阈值限制 就可忽略较小特征值对应的主成分 正则化效应 编辑 由于PCR估计量通常只使用一部分主成分进行回归 因此可视作某种正则化 更具体地说 1 k lt p displaystyle forall 1 leqslant k lt p nbsp PCR估计量b k displaystyle widehat boldsymbol beta k nbsp 都可表示以下约束最小化问题的正则化解 minb Rp Y Xb 2 subject to b vk 1 vp displaystyle min boldsymbol beta in mathbb R p left mathbf Y mathbf X boldsymbol beta right 2 quad text subject to quad boldsymbol beta perp mathbf v k 1 ldots mathbf v p nbsp 约束可等价写作 V p k Tb 0 displaystyle V p k T boldsymbol beta mathbf 0 nbsp 其中 V p k vk 1 vp p p k displaystyle V p k left mathbf v k 1 ldots mathbf v p right p times p k nbsp 因此 当择一部分主成分回归时 所得PCR估计量是基于硬形式的正则化 将所得解约束在选定主成分方向的列空间 因此限制其与被排除方向正交 一类正则化估计量中PCR的最优性 编辑 给定如上述的约束最小化问题 考虑下面的推广 minb Rp Y Xb 2 subject to L p k Tb 0 displaystyle min boldsymbol beta in mathbb R p mathbf Y mathbf X boldsymbol beta 2 quad text subject to quad L p k T boldsymbol beta mathbf 0 nbsp 其中L p k displaystyle L p k nbsp 表示任何阶为p p k 1 k lt p displaystyle p times p k 1 leqslant k lt p nbsp 的列满秩矩阵 令b L displaystyle widehat boldsymbol beta L nbsp 表示对应的解 则 b L arg minb Rp Y Xb 2 subject to L p k Tb 0 displaystyle widehat boldsymbol beta L arg min boldsymbol beta in mathbb R p mathbf Y mathbf X boldsymbol beta 2 quad text subject to quad L p k T boldsymbol beta mathbf 0 nbsp 则约束矩阵L p k displaystyle L p k nbsp 的最优选择就是相应估计量b L displaystyle widehat boldsymbol beta L nbsp 达到最小预测误差 3 L p k V p k L p k 1 2 displaystyle L p k V p k Lambda p k 1 2 nbsp 其中 L p k 1 2 diag lk 11 2 lp1 2 displaystyle Lambda p k 1 2 operatorname diag left lambda k 1 1 2 ldots lambda p 1 2 right nbsp 很明显 由此得到的最优估计量b L displaystyle widehat boldsymbol beta L nbsp 就是基于前k displaystyle k nbsp 个主成分的PCR估计量b k displaystyle widehat boldsymbol beta k nbsp 效率 编辑 由于普通最小二乘估计量对b displaystyle boldsymbol beta nbsp 无偏 所以有 Var b ols MSE b ols displaystyle operatorname Var widehat boldsymbol beta mathrm ols operatorname MSE widehat boldsymbol beta mathrm ols nbsp 其中MSE表示均方误差 现在 若对某个k 1 p displaystyle k in 1 ldots p nbsp 我们还有V p k Tb 0 displaystyle V p k T boldsymbol beta mathbf 0 nbsp 那么对应的b k displaystyle widehat boldsymbol beta k nbsp 也将是b displaystyle boldsymbol beta nbsp 的无偏估计量 就有 Var b k MSE b k displaystyle operatorname Var widehat boldsymbol beta k operatorname MSE widehat boldsymbol beta k nbsp 我们已经知道 j 1 p Var b ols Var b j 0 displaystyle forall j in 1 ldots p quad operatorname Var widehat boldsymbol beta mathrm ols operatorname Var widehat boldsymbol beta j succeq 0 nbsp 这就意味着对特定的k displaystyle k nbsp 有 MSE b ols MSE b k 0 displaystyle operatorname MSE widehat boldsymbol beta mathrm ols operatorname MSE widehat boldsymbol beta k succeq 0 nbsp 所以 用均方误差为标准的话 对应的b k displaystyle widehat boldsymbol beta k nbsp 是比b ols displaystyle widehat boldsymbol beta mathrm ols nbsp 更有效的b displaystyle boldsymbol beta nbsp 的估计量 另外 与b ols displaystyle widehat boldsymbol beta mathrm ols nbsp 的相同线性形式相比 对应b k displaystyle widehat boldsymbol beta k nbsp 的任何给定线性形式的均方误差也更小 现在假设 对给定的k 1 p V p k b 0 displaystyle k in 1 ldots p V p k boldsymbol beta neq mathbf 0 nbsp 那么对应的b k displaystyle widehat boldsymbol beta k nbsp 对b displaystyle boldsymbol beta nbsp 就是有偏的 但由于 k 1 p Var b ols Var b k 0 displaystyle forall k in 1 ldots p quad operatorname Var widehat boldsymbol beta mathrm ols operatorname Var widehat boldsymbol beta k succeq 0 nbsp MSE b ols MSE b k 0 displaystyle operatorname MSE widehat boldsymbol beta mathrm ols operatorname MSE widehat boldsymbol beta k succeq 0 nbsp 仍然是可能的 尤其是当k displaystyle k nbsp 使被排除主成分对应较小特征值时 从而导致较小的偏 为确保PCR作为b displaystyle boldsymbol beta nbsp 估计值的效率与性能 Park 1981 3 提出了以下用于回归的主成分选择标准 当且仅当lj lt ps2 bTb displaystyle lambda j lt p sigma 2 boldsymbol beta T boldsymbol beta nbsp 时 排除第j displaystyle j nbsp 个主成分 在实际应用中 还需要估计未知的模型参数s2 displaystyle sigma 2 nbsp 与b displaystyle boldsymbol beta nbsp 总的来说 可以用从原始完整模型得到的无约束最小二乘法进行估计 Park 1981 提供了一套稍加修改的估计值 可能更适合这一目的 3 与基于XTX displaystyle mathbf X T mathbf X nbsp 特征值累积和的标准不同 上述标准可能更适合解决多重共线性问题与降维 实际上是试图让输出和协变量都参与到回归的主成分选择之中 以提高PCR估计值的预测与估计效率 其他目的相似的选择主成分方法基于交叉验证 或马洛斯CP值等 通常 主成分的选择还基于其与输出的相关程度 PCR的收缩效应 编辑 总的来说 PCR本质上是收缩估计量 通常保留了高方差主成分 对应XTX displaystyle mathbf X T mathbf X nbsp 的较大特征值 作为模型中的协变量 并舍弃剩余的低方差成分 对应XTX displaystyle mathbf X T mathbf X nbsp 的较小特征值 这就对低方差成分产生了分离收缩 清除了其在原始模型中的贡献 相对地 岭回归估计量则通过其构造中固有的正则化参数 产生平滑收缩 虽然它不会舍弃任何一个成分 但会以连续的方式对所有成分产生收缩效应 因此低方差成分的收缩程度高于高方差成分 Frank amp Friedman 1993 4 认为 就预测本身而言 与具有离散收缩效应的PCR估计量相比 岭估计量具有平滑收缩效应 可能是更好的选择 此外 主成分是从X displaystyle mathbf X nbsp 的特征分解中得到的 只涉及解释变量的观测值 因此 以这些主成分为协变量得到的PCR估计量不一定具有令人满意的预测性能 偏最小二乘回归 PLS 估计量与之比较相似 试图通过自身的构造解决这问题 PLS也用低维的衍生协变量 但是在输出和协变量中获得的 PCR在协变量空间中寻找高方差方向 而PLS则寻找对预测结果最有用的方向 2006年 有人提出了经典PCR的一种变体 即监督PCR 5 这种方法的精神与PLS类似 试图根据结果和协变量标准 获得低维衍生协变量 首先进行简单线性回归 单变量回归 其中结果向量分别对p displaystyle p nbsp 个协变量逐一回归 然后 对某个m 1 p displaystyle m in 1 ldots p nbsp 选择与结果最相关的m displaystyle m nbsp 个协变量 基于对应估计回归系数的显著程度 供进一步使用 然后进行上述传统PCR 但只基于与选定协变量观测值对应的n m displaystyle n times m nbsp 设计矩阵 使用的协变量数 m 1 p displaystyle m in 1 ldots p nbsp 及随后使用的主成分数 k 1 m displaystyle k in 1 ldots m nbsp 一般通过交叉验证选择 核设置的推广 编辑上述经典PCR法基于经典PCA 并考虑了根据协变量的线性回归结果预测模型 这方法可以很容易地推广到核机设置 即回归函数不一定是协变量的线性函数 而可以属于与任意 可以非线性 对称正定核有关的再 核希尔伯特空间 核函数选为线性核时便有线性回归模型 是这种设置的特例 总的来说 在核机设置下 协变量向量首先被映射到所选核函数的高维 可能是无限维 特征空间中 这样得到的映射叫做特征映射 每个坐标 也叫做特征元 对应协变量的一个特征 无所谓线性与否 然后 假设回归函数是这些特征元的线性组合 则核机设置依赖的回归模型本质上是线性的 但前提是预测量不再是原始协变量集 而由特征映射所得协变量的特征元的向量 可能是无限维 给出 但核技巧实际上可以让我们在特征空间中操作 而无需明确计算特征映射 事实证明 只需计算观测协变量向量的特征映射之间的逐对内积即可 是由在相应协变量向量对上估值的核函数值简单给出的 因此 得到的逐对内积可用n n displaystyle n times n nbsp 对称非负定矩阵 也称为核矩阵 表示 核机设置中的PCR现在可用以下方式实现 首先将核矩阵 如K 相对于特征空间适当中心化 再对中心化核矩阵 如K 进行核主成分分析 得到K 的特征分解 然后 核PCR 通常 会从获得的所有特征向量中 一般通过交叉验证 选择一子集 在其上进行结果向量的标准线性回归 估计的回归系数 维度与选定特征向量数相同 与响应所选特征向量一起用于预测未来的观测结果 机器学习中 这技巧也被称为 谱回归 显然 核PCR对K 的特征向量具有离散收缩 与前面讨论过的经典PCR对主成分的离散收缩十分相似 然而 与核相关的特征映射可能是无限维的 因此相应的主成分及其方向也可能是无限维的 所以 在核机设置下 这些量实际上往往难以处理 核PCR基本上是基于相关核矩阵的谱分解 以考虑等效的对偶表述 来解决这一问题 在线性回归模型下 对应于选择核函数为线性核 这相当于考虑对应的n n displaystyle n times n nbsp 核矩阵XXT displaystyle mathbf X mathbf X T nbsp 的谱分解 然后将结果向量回归到得到的XXT displaystyle mathbf X mathbf X T nbsp 的选定特征向量子集上 很容易看出 这等同于将结果向量回归到相应主成分上 这时是有限维 正如经典PCR定义的那样 因此 对线性核 基于对偶表示的核PCR完全等同于基于原始公式的经典PCR 然而 对任意 可能非线性 核 由于相关特征映射可能的无限维 这种原始公式可能会变得难以处理 因此 这时经典PCR实际上不可行 但基于对偶表示的核PCR仍有效 且在计算上可推广 另见 编辑主成分分析 偏最小二乘回归 吉洪诺夫正则化 典型相关 戴明回归 平方总和参考文献 编辑 Jolliffe Ian T A note on the Use of Principal Components in Regression Journal of the Royal Statistical Society Series C 1982 31 3 300 303 JSTOR 2348005 doi 10 2307 2348005 Dodge Y 2003 The Oxford Dictionary of Statistical Terms OUP ISBN 0 19 920613 9 3 0 3 1 3 2 Sung H Park Collinearity and Optimal Restrictions on Regression Parameters for Estimating Responses Technometrics 1981 23 3 289 295 doi 10 2307 1267793 Lldiko E Frank amp Jerome H Friedman A Statistical View of Some Chemometrics Regression Tools Technometrics 1993 35 2 109 135 doi 10 1080 00401706 1993 10485033 Eric Bair Trevor Hastie Debashis Paul Robert Tibshirani Prediction by Supervised Principal Components Journal of the American Statistical Association 2006 101 473 119 137 CiteSeerX 10 1 1 516 2313 nbsp doi 10 1198 016214505000000628 阅读更多 编辑Amemiya Takeshi Advanced Econometrics Harvard University Press 1985 57 60 ISBN 978 0 674 00560 0 Theil Henri Principles of Econometrics Wiley 1971 46 55 ISBN 978 0 471 85845 4 取自 https zh wikipedia org w index php title 主成分回归 amp oldid 79407364, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。