fbpx
维基百科

缺失数据

缺失數據(英語:missing data)指在統計调查的过程中,由于受访者对问题的遗漏、拒绝,或是调查员与調查問卷本身的一些疏忽,使得经常会出现缺失数据问题,但是几乎所有标准统计方法都假设每單个案有可用于分析的所有變數信息,因此缺失数据就成为统计研究或问卷调查的工作人员必须解决的问题。

Paul D. Allison英语Paul D. Allison在其2011年出版的Missing Data一书中提到许多解决缺失数据问题的方案,而它们各有利弊。

相关概念[1] 编辑

介绍缺失数据的解决方案前須明白几个相关的統計概念:

完全隨機缺失(missing completely at random, MCAR) 编辑

假设一个特殊变量Y有缺失数据。如果Y缺失数据的概率与Y本身的值或在该数据组中任何其他变量的值都无关的话,那么Y的数据就是完全随机缺失的(MCAR)。

随机缺失(missing at random, MAR) 编辑

如果在分析中控制了其他变量后,Y缺失数据的概率与Y值无关,则称Y的数据为随机缺失(MAR)的,即:

Pr(Y missing|Y,X)=Pr(Y missing|X)。

不隨機缺失(missing not at random, MNAR) 编辑

缺失資料發生的原因與缺失資料本身的有相關。是不可忽略的缺失。

可忽略的 编辑

如果数据為MAR且管制缺失数据过程的参数与要估计的参数无关,则缺失数据的机制是可忽略的。在某些情况下,MAR和可忽略性可以视为相等的条件。

不可忽略的 编辑

如果數据不是MCAR或MNAR,则说缺失数据机制是不可忽略的。

缺失数据解决方案 编辑

解决缺失数据问题的方法主要有成列删除、成对删除、虚拟变量调整、插补、多重插补和最大似然

成列删除 编辑

成列删除的思想是:在分析中当某个案的任何变量有缺失数据时,便简单地将该个案从分析中排除。也称为个案删除。

成列删除方法的优点有:

  1. 可用于任何类型的统计分析。
  2. 不需特别的运算方法。
  3. 如果数据是MCAR,则减少的样本将会是原样本的一个随机次样本
  4. 如果任何因变量缺失数据的概率不取决于自变量的值,则使用成列删除的回归估计值将会是无偏误的。

成列删除方法的缺点有:

  1. 标准误通常较大。
  2. 如果数据不是MCAR而只是MAR,那么成列删除可能会产生有偏误的估计值。

成对删除 编辑

成对删除的原理是:通过所有可得的个案来计算这些描述统计的每一个。成对删除又称可得个案分析。

成对删除方法的优点是:如果数据为MCAR,成对删除就产生一致的参数估计值(在大样本中接近无偏误),且有比成列删除更少的抽样变异(较小的真实标准误),而当变量间相关性普遍较低时,成对删除会产生更有效的估计值。

成对删除方法的缺点有:

  1. 如果数据是MAR但不是随机被观察到的,估计值可能会严重偏误。
  2. 由统计软件所产生的标准误和检验统计量估计时偏误的。
  3. 在小样本中,建构的协方差或相关矩阵可能不是“正定的”。

虚拟变量调整 编辑

虚拟变量调整或缺失指标方法:假设某变量X有一些缺失数据,X为回归分析中数个自变量的其中一个,那么可以建立一个虚拟变量D,如果X存在数据缺失则D=1,否则D=0。同时建立一个变量X',使得当不存在数据缺失时X'=X,否则X'等于一个任意常数c。回归因变量Y于X'、D及其他在预设模型中的所有变量。

虚拟变量调整方法的优点是:它使用了所有可用的关于缺失数据的信息。

虚拟变量调整方法的缺点是:它通常会产生有偏误的系数估计值。

插补 编辑

插补方法的基本原理是:以某些合理的猜测插补或替代缺失值,然后再接着按没有缺失数据的情况分析。但是,按照完整数据的情况分析插补数据会低估标准误、高估检验统计量。

多重插补 编辑

多重插补法(MI)具有与最大似然法相同的最适特性,但却排除了某些局限性。特别是当数据为MAR时,正确使用多重插补会产生一致的、渐近有效且渐近正态的估计值。多重插补的另一个优势是,它几乎可以被任何一种数据或模型所使用,且分析可用未修改的、传统的软件执行。不过,多重插补也有缺点,执行可能很麻烦也很易出错,最严重的是每次使用多重插补时,都会产生不同的估计值。

最大似然 编辑

最大似然是一个有效且实用的处理随机缺失数据的方法,且对于大样本来说是最合适的,但它有一个限制条件:它需要包含所有缺失变量的联合概率的模型。因此比较适合于线性模型和对数线性模型。

  1. 当缺失数据是MAR时,可以简单地通过加总所有缺失数据可能值的一般似然来获得似然,原来的问题就变成了寻找尽可能使这个似然值最大化的参数值。
  2. 当缺失数据服从某一单调形态时,可以将似然因子化运用到用传统软件估计的条件式及边际分布中,但是这一方法不容易得到好的标准误及检验统计量的估计值。
  3. 一般缺失数据模式可用“期望最大化(EM)”的算法来处理,其优点有:容易使用且在很多商业的或免费的软件中都可以执行,缺点为:由线性模型化所报告的软件标准误和检验统计量并不正确,且对于过度识别模型,估计值不是全然有效的。

不可忽略的缺失数据 编辑

任何有关不可忽略的缺失数据的方法都应伴随一个敏感度分析,因为根据假设的模型,结果可能变化很大,故试验一貌似有理范围的模型并看它们是否产生相同的结果是很重要的。

參考文獻 编辑

  1. ^ 缺失資料在因素分析上的處理方法之研究 (PDF). 缺失資料在因素分析上的處理方法之研究. [2022-09-26]. (原始内容 (PDF)于2022-09-26). 

缺失数据, 此條目需要补充更多来源, 2018年10月13日, 请协助補充多方面可靠来源以改善这篇条目, 无法查证的内容可能會因為异议提出而被移除, 致使用者, 请搜索一下条目的标题, 来源搜索, 网页, 新闻, 书籍, 学术, 图像, 以检查网络上是否存在该主题的更多可靠来源, 判定指引, 缺失數據, 英語, missing, data, 指在統計调查的过程中, 由于受访者对问题的遗漏, 拒绝, 或是调查员与調查問卷本身的一些疏忽, 使得经常会出现问题, 但是几乎所有标准统计方法都假设每單个案有可用于分析的所有變. 此條目需要补充更多来源 2018年10月13日 请协助補充多方面可靠来源以改善这篇条目 无法查证的内容可能會因為异议提出而被移除 致使用者 请搜索一下条目的标题 来源搜索 缺失数据 网页 新闻 书籍 学术 图像 以检查网络上是否存在该主题的更多可靠来源 判定指引 缺失數據 英語 missing data 指在統計调查的过程中 由于受访者对问题的遗漏 拒绝 或是调查员与調查問卷本身的一些疏忽 使得经常会出现缺失数据问题 但是几乎所有标准统计方法都假设每單个案有可用于分析的所有變數信息 因此缺失数据就成为统计研究或问卷调查的工作人员必须解决的问题 Paul D Allison 英语 Paul D Allison 在其2011年出版的Missing Data一书中提到许多解决缺失数据问题的方案 而它们各有利弊 目录 1 相关概念 1 1 1 完全隨機缺失 missing completely at random MCAR 1 2 随机缺失 missing at random MAR 1 3 不隨機缺失 missing not at random MNAR 1 4 可忽略的 1 5 不可忽略的 2 缺失数据解决方案 2 1 成列删除 2 2 成对删除 2 3 虚拟变量调整 2 4 插补 2 5 多重插补 2 6 最大似然 3 不可忽略的缺失数据 4 參考文獻相关概念 1 编辑介绍缺失数据的解决方案前須明白几个相关的統計概念 完全隨機缺失 missing completely at random MCAR 编辑 假设一个特殊变量Y有缺失数据 如果Y缺失数据的概率与Y本身的值或在该数据组中任何其他变量的值都无关的话 那么Y的数据就是完全随机缺失的 MCAR 随机缺失 missing at random MAR 编辑 如果在分析中控制了其他变量后 Y缺失数据的概率与Y值无关 则称Y的数据为随机缺失 MAR 的 即 Pr Y missing Y X Pr Y missing X 不隨機缺失 missing not at random MNAR 编辑 缺失資料發生的原因與缺失資料本身的值有相關 是不可忽略的缺失 可忽略的 编辑 如果数据為MAR且管制缺失数据过程的参数与要估计的参数无关 则缺失数据的机制是可忽略的 在某些情况下 MAR和可忽略性可以视为相等的条件 不可忽略的 编辑 如果數据不是MCAR或MNAR 则说缺失数据机制是不可忽略的 缺失数据解决方案 编辑解决缺失数据问题的方法主要有成列删除 成对删除 虚拟变量调整 插补 多重插补和最大似然 成列删除 编辑 成列删除的思想是 在分析中当某个案的任何变量有缺失数据时 便简单地将该个案从分析中排除 也称为个案删除 成列删除方法的优点有 可用于任何类型的统计分析 不需特别的运算方法 如果数据是MCAR 则减少的样本将会是原样本的一个随机次样本 如果任何因变量缺失数据的概率不取决于自变量的值 则使用成列删除的回归估计值将会是无偏误的 成列删除方法的缺点有 标准误通常较大 如果数据不是MCAR而只是MAR 那么成列删除可能会产生有偏误的估计值 成对删除 编辑 成对删除的原理是 通过所有可得的个案来计算这些描述统计的每一个 成对删除又称可得个案分析 成对删除方法的优点是 如果数据为MCAR 成对删除就产生一致的参数估计值 在大样本中接近无偏误 且有比成列删除更少的抽样变异 较小的真实标准误 而当变量间相关性普遍较低时 成对删除会产生更有效的估计值 成对删除方法的缺点有 如果数据是MAR但不是随机被观察到的 估计值可能会严重偏误 由统计软件所产生的标准误和检验统计量估计时偏误的 在小样本中 建构的协方差或相关矩阵可能不是 正定的 虚拟变量调整 编辑 虚拟变量调整或缺失指标方法 假设某变量X有一些缺失数据 X为回归分析中数个自变量的其中一个 那么可以建立一个虚拟变量D 如果X存在数据缺失则D 1 否则D 0 同时建立一个变量X 使得当不存在数据缺失时X X 否则X 等于一个任意常数c 回归因变量Y于X D及其他在预设模型中的所有变量 虚拟变量调整方法的优点是 它使用了所有可用的关于缺失数据的信息 虚拟变量调整方法的缺点是 它通常会产生有偏误的系数估计值 插补 编辑 插补方法的基本原理是 以某些合理的猜测插补或替代缺失值 然后再接着按没有缺失数据的情况分析 但是 按照完整数据的情况分析插补数据会低估标准误 高估检验统计量 多重插补 编辑 多重插补法 MI 具有与最大似然法相同的最适特性 但却排除了某些局限性 特别是当数据为MAR时 正确使用多重插补会产生一致的 渐近有效且渐近正态的估计值 多重插补的另一个优势是 它几乎可以被任何一种数据或模型所使用 且分析可用未修改的 传统的软件执行 不过 多重插补也有缺点 执行可能很麻烦也很易出错 最严重的是每次使用多重插补时 都会产生不同的估计值 最大似然 编辑 最大似然是一个有效且实用的处理随机缺失数据的方法 且对于大样本来说是最合适的 但它有一个限制条件 它需要包含所有缺失变量的联合概率的模型 因此比较适合于线性模型和对数线性模型 当缺失数据是MAR时 可以简单地通过加总所有缺失数据可能值的一般似然来获得似然 原来的问题就变成了寻找尽可能使这个似然值最大化的参数值 当缺失数据服从某一单调形态时 可以将似然因子化运用到用传统软件估计的条件式及边际分布中 但是这一方法不容易得到好的标准误及检验统计量的估计值 一般缺失数据模式可用 期望最大化 EM 的算法来处理 其优点有 容易使用且在很多商业的或免费的软件中都可以执行 缺点为 由线性模型化所报告的软件标准误和检验统计量并不正确 且对于过度识别模型 估计值不是全然有效的 不可忽略的缺失数据 编辑任何有关不可忽略的缺失数据的方法都应伴随一个敏感度分析 因为根据假设的模型 结果可能变化很大 故试验一貌似有理范围的模型并看它们是否产生相同的结果是很重要的 參考文獻 编辑 缺失資料在因素分析上的處理方法之研究 PDF 缺失資料在因素分析上的處理方法之研究 2022 09 26 原始内容存档 PDF 于2022 09 26 Paul D Allison Missing Data New York City SAGE Publications 2001 ISBN 9780761916727 取自 https zh wikipedia org w index php title 缺失数据 amp oldid 75581729, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。