如何利用大数据进行数据清洗？

如题所述

举报该问题

推荐答案 2023-11-11

一、解决数据质量问题
数据的完整性，比如人的属性中缺少性别、籍贯、年龄等

数据的唯一性，比如不同来源的数据出现重复的情况

数据的权威性，比如同一个指标出现多个来源的数据，且数值不一样

数据的合法性，比如数据与常识不符，市区内开车速度到达了400km/h

数据的一致性，比如不同来源的不同指标，实际的内涵与表示意义是一样的

数据清洗的结果是对各种脏数据进行对应标准的干净的、连续的数据，提供给数据统计、数据挖掘等使用。

1、数据完整性问题
解决思路：数据补全

（1）通过其他信息补全，比如通过身份证号码推算性别、籍贯、出生日期、年龄等

（2）通过前后数据补全，例如时间序列确实，可以使用前后的均值填充，缺的数据多了，可以使用平滑处理

（3）实在补不全的，必须剔除，但是不要删除，说不定以后用得上

2、数据唯一性问题
解决思路：去除重复记录，只保留一条

（1）按照主键去重，用sql或者excel去除重复记录即可

（2）按照规则去重，编写一系列规则，对重复情况负责的数据去重，例如不同渠道来的客户数据，可以通过相同的关键信息进行匹配，合并去重

3、数据权威性问题
解决思路：用最权威那个渠道的数据

对不同渠道设定权威级别，然后再不同场合下选最重要的

4、数据合法性问题
解决思路：设定判定规则

（1）设定强制合法规则，凡事不在规则范围内的，强制设置最大值以及最小值，剔除或者判断为无效

字段类型合法规则：日期字段格式过滤

字段内容合法规则：性别 in（男、女、未知））；出生日期《=今天

（2）设定警告规则，凡是不在规则范围内的，进行警告然后人工处理

（3）离群值人工特殊处理，使用分箱、聚类、回归等方式发现离群值

5、结局数据一致性问题
解决思路：简历数据体系

（1）指标体系（度量）

（2）维度（分组、统计口径）

（3）单位

（4）频度

（5）数据

温馨提示：答案为网友推荐，仅供参考

当前网址：http://99.wendadaohang.com/zd/WOtOt7B7BjXjXO7BWtX.html

相似回答

大家正在搜