单元无回答的缺失数据处理方法如下:
一、K近邻填补法(KNN)
根据欧式距离或相关分析来确定距离具有缺失数据个案最近的K个个案,将这K个值加权平均来估计出待填补的数据。
KNN是一种建模预测的方法,将缺失的属性作为预测目标来预测。这种方法效果较好,但是该方法有个根本的缺陷:如果其他属性和缺失属性无关,则预测的结果毫无意义。但是如果预测结果相当准确,则说明这个缺失属性是没必要考虑纳入数据集中的。
二、多重插补法
多值插补的思想来源于贝叶斯估计,认为待插补的值是随机的,它的值来自于已观测到的值。具体实践上通常是估计出待插补的值,然后再加上不同的噪声,形成多组可选插补值。根据某种选择依据,选取最合适的插补值。
三、随机森林填补法
对缺失值进行预设处理,然后根据其在随机森林中的表现评估不同预设情况下与原缺失路径的相似度,多次迭代得到稳定的估计值。
1、优点
(1)随机森林填补通过构造多棵决策树对缺失值进行填补,使得填补得到的数据具有随机性和不确定性,更能反映出这些未知数据的真实分布。
(2)随机森林填补由于在构造决策树过程中,每个分支节点选用随机的部分特征而不是全部特征,所以能很好的应用到高维数据的填补。
(3)随机森林算法本身就具有很好的分类精度,从而也更进一步确保了得到的填补值的准确性和可靠性。
2、缺点:解释性比较差。