fbpx
维基百科

偏最小二乘回归

偏最小二乘回归(英語:Partial least squares regression, PLS回归)是一种统计学方法,与主成分回归有关系,但不是寻找响应和独立变量之间最小方差超平面,而是通过投影预测变量和观测变量到一个新空间来寻找一个线性回归模型。因为数据XY都会投影到新空间,PLS系列的方法都被称为双线性因子模型。當Y是分类數據時有「偏最小二乘判别分析(英語:Partial least squares Discriminant Analysis, PLS-DA)」,是PLS的一个变形。

偏最小二乘用于查找两个矩阵XY)的基本关系,即一个在这两个空间对协方差结构建模的隐变量方法。偏最小二乘模型将试图找到X空间的多维方向来解释Y空间方差最大的多维方向。偏最小二乘回归特别适合当预测矩阵比观测的有更多变量,以及X的值中有多重共线性的时候。相比之下,标准的回归在这些情况下不见效(除非它是吉洪诺夫正则化)。

偏最小二乘算法被用在偏最小二乘路径建模中,[1][2] 一个建立隐变量(原因不能没有实验和拟实验来确定,但一个典型的模型会基于之前理论假设(隐变量影响衡量指标的表现)的隐变量模型)这种技术是结构方程模型的一种形式,与经典方法不同的是基于组件而不是基于协方差。[3]

偏最小二乘来源于瑞典统计学家Herman Wold,然后由他的儿子Svante Wold发展。偏最小二乘的另一个词(根据Svante Wold[4])是投影到潜在结构,但偏最小二乘法依然在许多领域占据着主导地位。尽管最初的应用是在社会科学中,偏最小二乘回归今天被广泛用于化学计量学和相关领域。它也被用于生物信息学,sensometrics,神经科学和人类学。而相比之下,偏最小二乘回歸最常用于社会科学、计量经济学、市场营销和战略管理。

底层模型 编辑

偏最小二乘的一般多元底层模型是

 
 

其中 是一个 的预测矩阵, 是一个 的响应矩阵;   的矩阵,分别为 的投影(“X分数”、“组件”或“因子”矩阵)和 的投影(“Y分数”);  分别是  的正交载荷矩阵,以及矩阵  是错误项,假设是独立同分布的随机正态变量。对  分解来最大化  之间的协方差

算法 编辑

偏最小二乘的许多变量是为了估计因子和载荷矩阵  。它们中大多数构造了  之间线性回归的估计 。一些偏最小二乘算法只适合 是一个列向量的情况,而其它的算法则处理了 是一个矩阵的一般情况。算法也根据他们是否估计因子矩阵 为一个正交矩阵而不同。[5][6][7][8][9][10] 最后的预测在所有不同最小二乘算法中都是一样的,但组件是不同的。

PLS1 编辑

PLS1是一个 是向量时广泛使用的算法。它估计 是一个正交矩阵。以下是伪代码(大写字母是矩阵,带上标的小写字母是向量,带下标的小写字母和单独的小写字母都是标量):

 1 function PLS1( ) 2   3  , an initial estimate of  . 4   5 for   = 0 to   6   (note this is a scalar) 7   8   9   (note this is a scalar) 10 if   = 0 11  , break the for loop 12 if   13   14   15   16 end for 17 define   to be the matrix with columns  . Do the same to form the   matrix and   vector. 18   19   20 return   

这种形式的算法不需要输入  定中心,因为算法隐式处理了。这个算法的特点是收缩于  (减去 ),但向量 不收缩,因为没有必要(可以证明收缩 和不收缩的结果是一样的)。用户提供的变量 是回归中隐藏因子数量的限制;如果它等于矩阵 的秩,算法将产生  的最小二乘回归估计。

扩展 编辑

2002年,一个叫做正交投影(英語:Orthogonal Projections to Latent Structures, OPLS)的方法提出。在OPLS中,连续变量数据被分为预测的和不相关的信息。这有利于改进诊断,以及更容易解释可视化。然而,这些变化只是改善模型的可解释性,不是预测能力。[11] L-PLS通过3个连接数据块扩展了偏最小二乘回归。[12] 同样,OPLS-DA(英語:Discriminant Analysis, 判别分析)可能被应用在处理离散变量,如分类和生物标志物的研究。

软件实现 编辑

大多数统计软件包都提供偏最小二乘回归。[來源請求] R中的‘pls’包提供了一系列算法。[13]

参见 编辑

扩展阅读 编辑

  • Kramer, R. Chemometric Techniques for Quantitative Analysis. Marcel-Dekker. 1998. ISBN 0-8247-0198-4. 
  • Frank, Ildiko E.; Friedman, Jerome H. A Statistical View of Some Chemometrics Regression Tools. Technometrics. 1993, 35 (2): 109–148 [2015-09-28]. doi:10.1080/00401706.1993.10485033. (原始内容存档于2013-02-03). 
  • Haenlein, Michael; Kaplan, Andreas M. A Beginner's Guide to Partial Least Squares Analysis. Understanding Statistics. 2004, 3 (4): 283–297. doi:10.1207/s15328031us0304_4. 
  • Henseler, Joerg; Fassott, Georg. Testing Moderating Effects in PLS Path Models. An Illustration of Available Procedures. 2005. 
  • Lingjærde, Ole-Christian; Christophersen, Nils. Shrinkage Structure of Partial Least Squares. Scandinavian Journal of Statistics. 2000, 27 (3): 459–473. doi:10.1111/1467-9469.00201. 
  • Tenenhaus, Michel. La Régression PLS: Théorie et Pratique. Paris: Technip.. 1998. 
  • Rosipal, Roman; Kramer, Nicole. Overview and Recent Advances in Partial Least Squares, in Subspace, Latent Structure and Feature Selection Techniques: 34–51. 2006. 
  • Helland, Inge S. PLS regression and statistical models. Scandinavian Journal of Statistics. 1990, 17 (2): 97–114. JSTOR 4616159. 
  • Wold, Herman. Estimation of principal components and related models by iterative least squares. Krishnaiaah, P.R. (编). Multivariate Analysis. New York: Academic Press. 1966: 391–420. 
  • Wold, Herman. The fix-point approach to interdependent systems. Amsterdam: North Holland. 1981. 
  • Wold, Herman. Partial least squares. Kotz, Samuel; Johnson, Norman L. (编). Encyclopedia of statistical sciences 6. New York: Wiley. 1985: 581–591. 
  • Wold, Svante; Ruhe, Axel; Wold, Herman; Dunn, W.J. The collinearity problem in linear regression. the partial least squares (PLS) approach to generalized inverses. SIAM Journal on Scientific and Statistical Computing. 1984, 5 (3): 735–743. doi:10.1137/0905052. 
  • Garthwaite, Paul H. An Interpretation of Partial Least Squares. Journal of the American Statistical Association. 1994, 89 (425): 122–7. JSTOR 2291207. doi:10.1080/01621459.1994.10476452. 
  • Wang, H. (编). Handbook of Partial Least Squares. 2010. ISBN 978-3-540-32825-4. 
  • Stone, M.; Brooks, R.J. Continuum Regression: Cross-Validated Sequentially Constructed Prediction embracing Ordinary Least Squares, Partial Least Squares and Principal Components Regression. Journal of the Royal Statistical Society, Series B. 1990, 52 (2): 237–269. JSTOR 2345437. 
  • Wan Mohamad Asyraf Bin Wan Afthanorhan. (2013). A Comparison Of Partial Least Square Structural Equation Modeling (PLS-SEM) and Covariance Based Structural EquationModeling (CB-SEM) for Confirmatory Factor Analysis International Journal of Engineering Science and Innovative Technology (IJESIT), 2(5), 9.

参考文献 编辑

  1. ^ Tenenhaus, M.; Esposito Vinzi, V.; Chatelinc, Y-M.; Lauro, C. PLS path modeling (PDF). Computational Statistics & Data Analysis. January 2005, 48 (1): 159–205. doi:10.1016/j.csda.2004.03.005. [永久失效連結]
  2. ^ Vinzi, V.; Chin, W.W.; Henseler, J.; Wang, H. (编). Handbook of Partial Least Squares. 2010. ISBN 978-3-540-32825-4. 
  3. ^ Tenenhaus, M. (PDF). 2008 [2015-09-28]. (原始内容 (PDF)存档于2013-11-03). 
  4. ^ Wold, S; Sjöström, M.; Eriksson, L. PLS-regression: a basic tool of chemometrics. Chemometrics and Intelligent Laboratory Systems. 2001, 58 (2): 109–130 [2015-09-28]. doi:10.1016/S0169-7439(01)00155-1. (原始内容于2017-09-09). 
  5. ^ Lindgren, F; Geladi, P; Wold, S. The kernel algorithm for PLS. J. Chemometrics. 1993, 7: 45–59 [2015-09-28]. doi:10.1002/cem.1180070104. (原始内容于2017-06-07). 
  6. ^ de Jong, S.; ter Braak, C.J.F. Comments on the PLS kernel algorithm. J. Chemometrics. 1994, 8 (2): 169–174 [2015-09-28]. doi:10.1002/cem.1180080208. (原始内容于2016-07-13). 
  7. ^ Dayal, B.S.; MacGregor, J.F. Improved PLS algorithms. J. Chemometrics. 1997, 11 (1): 73–85 [2015-09-28]. doi:10.1002/(SICI)1099-128X(199701)11:1<73::AID-CEM435>3.0.CO;2-#. (原始内容于2016-07-04). 
  8. ^ de Jong, S. SIMPLS: an alternative approach to partial least squares regression. Chemometrics and Intelligent Laboratory Systems. 1993, 18 (3): 251–263. doi:10.1016/0169-7439(93)85002-X. 
  9. ^ Rannar, S.; Lindgren, F.; Geladi, P.; Wold, S. A PLS Kernel Algorithm for Data Sets with Many Variables and Fewer Objects. Part 1: Theory and Algorithm. J. Chemometrics. 1994, 8 (2): 111–125 [2015-09-28]. doi:10.1002/cem.1180080204. (原始内容于2016-10-17). 
  10. ^ Abdi, H. Partial least squares regression and projection on latent structure regression (PLS-Regression). Wiley Interdisciplinary Reviews: Computational Statistics. 2010, 2: 97–106. doi:10.1002/wics.51. 
  11. ^ Trygg, J; Wold, S. Orthogonal Projections to Latent Structures. Journal of Chemometrics. 2002, 16 (3): 119–128. doi:10.1002/cem.695. 
  12. ^ Sæbøa, S.; Almøya, T.; Flatbergb, A.; Aastveita, A.H.; Martens, H. LPLS-regression: a method for prediction and classification under the influence of background information on predictor variables. Chemometrics and Intelligent Laboratory Systems. 2008, 91 (2): 121–132. doi:10.1016/j.chemolab.2007.10.006. 
  13. ^ Package ‘pls’ (PDF). [2015-09-28]. (原始内容 (PDF)于2020-12-09). 

外部链接 编辑

  • imDEV (页面存档备份,存于互联网档案馆) free Excel add-in for PLS and PLS-DA
  • PLS in Brain Imaging
  • on-line PLS (页面存档备份,存于互联网档案馆) regression (PLSR) at Virtual Computational Chemistry Laboratory
  • Uncertainty estimation for PLS (页面存档备份,存于互联网档案馆
  • A short introduction to PLS regression and its history (页面存档备份,存于互联网档案馆

偏最小二乘回归, 英語, partial, least, squares, regression, pls回归, 是一种统计学方法, 与主成分回归有关系, 但不是寻找响应和独立变量之间最小方差的超平面, 而是通过投影预测变量和观测变量到一个新空间来寻找一个线性回归模型, 因为数据x和y都会投影到新空间, pls系列的方法都被称为双线性因子模型, 當y是分类數據時有, 偏最小二乘判别分析, 英語, partial, least, squares, discriminant, analysis, 是pls的一个变形, . 偏最小二乘回归 英語 Partial least squares regression PLS回归 是一种统计学方法 与主成分回归有关系 但不是寻找响应和独立变量之间最小方差的超平面 而是通过投影预测变量和观测变量到一个新空间来寻找一个线性回归模型 因为数据X和Y都会投影到新空间 PLS系列的方法都被称为双线性因子模型 當Y是分类數據時有 偏最小二乘判别分析 英語 Partial least squares Discriminant Analysis PLS DA 是PLS的一个变形 偏最小二乘用于查找两个矩阵 X和Y 的基本关系 即一个在这两个空间对协方差结构建模的隐变量方法 偏最小二乘模型将试图找到X空间的多维方向来解释Y空间方差最大的多维方向 偏最小二乘回归特别适合当预测矩阵比观测的有更多变量 以及X的值中有多重共线性的时候 相比之下 标准的回归在这些情况下不见效 除非它是吉洪诺夫正则化 偏最小二乘算法被用在偏最小二乘路径建模中 1 2 一个建立隐变量 原因不能没有实验和拟实验来确定 但一个典型的模型会基于之前理论假设 隐变量影响衡量指标的表现 的隐变量模型 这种技术是结构方程模型的一种形式 与经典方法不同的是基于组件而不是基于协方差 3 偏最小二乘来源于瑞典统计学家Herman Wold 然后由他的儿子Svante Wold发展 偏最小二乘的另一个词 根据Svante Wold 4 是投影到潜在结构 但偏最小二乘法依然在许多领域占据着主导地位 尽管最初的应用是在社会科学中 偏最小二乘回归今天被广泛用于化学计量学和相关领域 它也被用于生物信息学 sensometrics 神经科学和人类学 而相比之下 偏最小二乘回歸最常用于社会科学 计量经济学 市场营销和战略管理 目录 1 底层模型 2 算法 2 1 PLS1 3 扩展 4 软件实现 5 参见 6 扩展阅读 7 参考文献 8 外部链接底层模型 编辑偏最小二乘的一般多元底层模型是 X T P E displaystyle X TP top E nbsp Y U Q F displaystyle Y UQ top F nbsp 其中X displaystyle X nbsp 是一个n m displaystyle n times m nbsp 的预测矩阵 Y displaystyle Y nbsp 是一个n p displaystyle n times p nbsp 的响应矩阵 T displaystyle T nbsp 和U displaystyle U nbsp 是n l displaystyle n times l nbsp 的矩阵 分别为X displaystyle X nbsp 的投影 X分数 组件 或 因子 矩阵 和Y displaystyle Y nbsp 的投影 Y分数 P displaystyle P nbsp 和Q displaystyle Q nbsp 分别是m l displaystyle m times l nbsp 和p l displaystyle p times l nbsp 的正交载荷矩阵 以及矩阵E displaystyle E nbsp 和F displaystyle F nbsp 是错误项 假设是独立同分布的随机正态变量 对X displaystyle X nbsp 和Y displaystyle Y nbsp 分解来最大化T displaystyle T nbsp 和U displaystyle U nbsp 之间的协方差 算法 编辑偏最小二乘的许多变量是为了估计因子和载荷矩阵T U P displaystyle T U P nbsp 和Q displaystyle Q nbsp 它们中大多数构造了X displaystyle X nbsp 和Y displaystyle Y nbsp 之间线性回归的估计Y X B B 0 displaystyle Y X tilde B tilde B 0 nbsp 一些偏最小二乘算法只适合Y displaystyle Y nbsp 是一个列向量的情况 而其它的算法则处理了Y displaystyle Y nbsp 是一个矩阵的一般情况 算法也根据他们是否估计因子矩阵T displaystyle T nbsp 为一个正交矩阵而不同 5 6 7 8 9 10 最后的预测在所有不同最小二乘算法中都是一样的 但组件是不同的 PLS1 编辑 PLS1是一个Y displaystyle Y nbsp 是向量时广泛使用的算法 它估计T displaystyle T nbsp 是一个正交矩阵 以下是伪代码 大写字母是矩阵 带上标的小写字母是向量 带下标的小写字母和单独的小写字母都是标量 1 function PLS1 X y l displaystyle X y l nbsp 2 X 0 X displaystyle X 0 gets X nbsp 3 w 0 X T y X T y displaystyle w 0 gets X T y X T y nbsp an initial estimate of w displaystyle w nbsp 4 t 0 X w 0 displaystyle t 0 gets Xw 0 nbsp 5 for k displaystyle k nbsp 0 to l displaystyle l nbsp 6 t k t k T t k displaystyle t k gets t k T t k nbsp note this is a scalar 7 t k t k t k displaystyle t k gets t k t k nbsp 8 p k X k T t k displaystyle p k gets X k T t k nbsp 9 q k y T t k displaystyle q k gets y T t k nbsp note this is a scalar 10 if q k displaystyle q k nbsp 0 11 l k displaystyle l gets k nbsp break the for loop 12 if k lt l displaystyle k lt l nbsp 13 X k 1 X k t k t k p k T displaystyle X k 1 gets X k t k t k p k T nbsp 14 w k 1 X k 1 T y displaystyle w k 1 gets X k 1 T y nbsp 15 t k 1 X k 1 w k 1 displaystyle t k 1 gets X k 1 w k 1 nbsp 16 end for 17 define W displaystyle W nbsp to be the matrix with columns w 0 w 1 w l 1 displaystyle w 0 w 1 w l 1 nbsp Do the same to form the P displaystyle P nbsp matrix and q displaystyle q nbsp vector 18 B W P T W 1 q displaystyle B gets W P T W 1 q nbsp 19 B 0 q 0 P 0 T B displaystyle B 0 gets q 0 P 0 T B nbsp 20 return B B 0 displaystyle B B 0 nbsp 这种形式的算法不需要输入X displaystyle X nbsp 和Y displaystyle Y nbsp 定中心 因为算法隐式处理了 这个算法的特点是收缩于X displaystyle X nbsp 减去t k t k p k T displaystyle t k t k p k T nbsp 但向量y displaystyle y nbsp 不收缩 因为没有必要 可以证明收缩y displaystyle y nbsp 和不收缩的结果是一样的 用户提供的变量l displaystyle l nbsp 是回归中隐藏因子数量的限制 如果它等于矩阵X displaystyle X nbsp 的秩 算法将产生B displaystyle B nbsp 和B 0 displaystyle B 0 nbsp 的最小二乘回归估计 扩展 编辑2002年 一个叫做正交投影 英語 Orthogonal Projections to Latent Structures OPLS 的方法提出 在OPLS中 连续变量数据被分为预测的和不相关的信息 这有利于改进诊断 以及更容易解释可视化 然而 这些变化只是改善模型的可解释性 不是预测能力 11 L PLS通过3个连接数据块扩展了偏最小二乘回归 12 同样 OPLS DA 英語 Discriminant Analysis 判别分析 可能被应用在处理离散变量 如分类和生物标志物的研究 软件实现 编辑大多数统计软件包都提供偏最小二乘回归 來源請求 R中的 pls 包提供了一系列算法 13 参见 编辑特征提取 数据挖掘 机器学习 回归分析 典型相关 Deming regression 多线性子空间学习 主成分分析 总平方和扩展阅读 编辑Kramer R Chemometric Techniques for Quantitative Analysis Marcel Dekker 1998 ISBN 0 8247 0198 4 Frank Ildiko E Friedman Jerome H A Statistical View of Some Chemometrics Regression Tools Technometrics 1993 35 2 109 148 2015 09 28 doi 10 1080 00401706 1993 10485033 原始内容存档于2013 02 03 Haenlein Michael Kaplan Andreas M A Beginner s Guide to Partial Least Squares Analysis Understanding Statistics 2004 3 4 283 297 doi 10 1207 s15328031us0304 4 Henseler Joerg Fassott Georg Testing Moderating Effects in PLS Path Models An Illustration of Available Procedures 2005 Lingjaerde Ole Christian Christophersen Nils Shrinkage Structure of Partial Least Squares Scandinavian Journal of Statistics 2000 27 3 459 473 doi 10 1111 1467 9469 00201 Tenenhaus Michel La Regression PLS Theorie et Pratique Paris Technip 1998 Rosipal Roman Kramer Nicole Overview and Recent Advances in Partial Least Squares in Subspace Latent Structure and Feature Selection Techniques 34 51 2006 Helland Inge S PLS regression and statistical models Scandinavian Journal of Statistics 1990 17 2 97 114 JSTOR 4616159 Wold Herman Estimation of principal components and related models by iterative least squares Krishnaiaah P R 编 Multivariate Analysis New York Academic Press 1966 391 420 Wold Herman The fix point approach to interdependent systems Amsterdam North Holland 1981 Wold Herman Partial least squares Kotz Samuel Johnson Norman L 编 Encyclopedia of statistical sciences 6 New York Wiley 1985 581 591 Wold Svante Ruhe Axel Wold Herman Dunn W J The collinearity problem in linear regression the partial least squares PLS approach to generalized inverses SIAM Journal on Scientific and Statistical Computing 1984 5 3 735 743 doi 10 1137 0905052 Garthwaite Paul H An Interpretation of Partial Least Squares Journal of the American Statistical Association 1994 89 425 122 7 JSTOR 2291207 doi 10 1080 01621459 1994 10476452 Wang H 编 Handbook of Partial Least Squares 2010 ISBN 978 3 540 32825 4 Stone M Brooks R J Continuum Regression Cross Validated Sequentially Constructed Prediction embracing Ordinary Least Squares Partial Least Squares and Principal Components Regression Journal of the Royal Statistical Society Series B 1990 52 2 237 269 JSTOR 2345437 Wan Mohamad Asyraf Bin Wan Afthanorhan 2013 A Comparison Of Partial Least Square Structural Equation Modeling PLS SEM and Covariance Based Structural EquationModeling CB SEM for Confirmatory Factor Analysis International Journal of Engineering Science and Innovative Technology IJESIT 2 5 9 参考文献 编辑 Tenenhaus M Esposito Vinzi V Chatelinc Y M Lauro C PLS path modeling PDF Computational Statistics amp Data Analysis January 2005 48 1 159 205 doi 10 1016 j csda 2004 03 005 永久失效連結 Vinzi V Chin W W Henseler J Wang H 编 Handbook of Partial Least Squares 2010 ISBN 978 3 540 32825 4 Tenenhaus M Component based structural equation modelling PDF 2008 2015 09 28 原始内容 PDF 存档于2013 11 03 Wold S Sjostrom M Eriksson L PLS regression a basic tool of chemometrics Chemometrics and Intelligent Laboratory Systems 2001 58 2 109 130 2015 09 28 doi 10 1016 S0169 7439 01 00155 1 原始内容存档于2017 09 09 Lindgren F Geladi P Wold S The kernel algorithm for PLS J Chemometrics 1993 7 45 59 2015 09 28 doi 10 1002 cem 1180070104 原始内容存档于2017 06 07 de Jong S ter Braak C J F Comments on the PLS kernel algorithm J Chemometrics 1994 8 2 169 174 2015 09 28 doi 10 1002 cem 1180080208 原始内容存档于2016 07 13 Dayal B S MacGregor J F Improved PLS algorithms J Chemometrics 1997 11 1 73 85 2015 09 28 doi 10 1002 SICI 1099 128X 199701 11 1 lt 73 AID CEM435 gt 3 0 CO 2 原始内容存档于2016 07 04 de Jong S SIMPLS an alternative approach to partial least squares regression Chemometrics and Intelligent Laboratory Systems 1993 18 3 251 263 doi 10 1016 0169 7439 93 85002 X Rannar S Lindgren F Geladi P Wold S A PLS Kernel Algorithm for Data Sets with Many Variables and Fewer Objects Part 1 Theory and Algorithm J Chemometrics 1994 8 2 111 125 2015 09 28 doi 10 1002 cem 1180080204 原始内容存档于2016 10 17 Abdi H Partial least squares regression and projection on latent structure regression PLS Regression Wiley Interdisciplinary Reviews Computational Statistics 2010 2 97 106 doi 10 1002 wics 51 Trygg J Wold S Orthogonal Projections to Latent Structures Journal of Chemometrics 2002 16 3 119 128 doi 10 1002 cem 695 Saeboa S Almoya T Flatbergb A Aastveita A H Martens H LPLS regression a method for prediction and classification under the influence of background information on predictor variables Chemometrics and Intelligent Laboratory Systems 2008 91 2 121 132 doi 10 1016 j chemolab 2007 10 006 Package pls PDF 2015 09 28 原始内容存档 PDF 于2020 12 09 外部链接 编辑imDEV 页面存档备份 存于互联网档案馆 free Excel add in for PLS and PLS DA PLS in Brain Imaging on line PLS 页面存档备份 存于互联网档案馆 regression PLSR at Virtual Computational Chemistry Laboratory Uncertainty estimation for PLS 页面存档备份 存于互联网档案馆 A short introduction to PLS regression and its history 页面存档备份 存于互联网档案馆 取自 https zh wikipedia org w index php title 偏最小二乘回归 amp oldid 79758916, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。