将有缺失值的个案整个删除的方法,结果可能会导致研究结果的不完整和不准确。
缺失值是现实数据集中的常见问题,处理缺失值是数据预处理的关键步骤。缺失值可能由于各种原因而发生,例如数据的结构和质量、数据输入错误、传输过程中的数据丢失或不完整的数据收集。
这些缺失的值可能会影响机器学习模型的准确性和可靠性,因为它们可能会引入偏差并扭曲结果,有些模型甚至在在缺少值的情况下根本无法工作。所以在构建模型之前,适当地处理缺失值是必要的。
用特征的平均值或中值替换缺失的值。在这种情况下不会丢失特征或行。但是这种方法只能用于数值特征(如果使用平均值,我们应该确保数据集没有倾斜或包含重要的异常值)。
虚拟变量法主要用于分类自变量的缺失,把缺失值作为一类,这样类别数就多了一类。例如性别,本来是男性和女性两类,虚拟变量的话以女性为0,男性为1。如果有缺失,可以把缺失值赋值为2,这样就变成了3类。
数据缺失值的处理方法
使用一个全局常量填充缺失值。将缺失的属性值用同一个常数进行替换。这种方法虽然简单,但可用性较差。由于此方法大量采用同一属性值,又可能会误导挖掘程序得出有偏差甚至错误的结论,因此,也要谨慎使用。
使用最可能的值填充缺失值。可以用回归、使用贝叶斯形式化的基于推理的工具,或决策树归纳确定。例如,利用数据集中其他客户顾客的属性,可以构造一棵决策树来预测家庭月总收入的缺失值。