如何利用大数据进行数据清洗?

如题所述

一、解决数据质量问题
数据的完整性,比如人的属性中缺少性别、籍贯、年龄等

数据的唯一性,比如不同来源的数据出现重复的情况

数据的权威性,比如同一个指标出现多个来源的数据,且数值不一样

数据的合法性,比如数据与常识不符,市区内开车速度到达了400km/h

数据的一致性,比如不同来源的不同指标,实际的内涵与表示意义是一样的

数据清洗的结果是对各种脏数据进行对应标准的干净的、连续的数据,提供给数据统计、数据挖掘等使用。

1、数据完整性问题
解决思路:数据补全

(1)通过其他信息补全,比如通过身份证号码推算性别、籍贯、出生日期、年龄等

(2)通过前后数据补全,例如时间序列确实,可以使用前后的均值填充,缺的数据多了,可以使用平滑处理

(3)实在补不全的,必须剔除,但是不要删除,说不定以后用得上

2、数据唯一性问题
解决思路:去除重复记录,只保留一条

(1)按照主键去重,用sql或者excel去除重复记录即可

(2)按照规则去重,编写一系列规则,对重复情况负责的数据去重,例如不同渠道来的客户数据,可以通过相同的关键信息进行匹配,合并去重

3、数据权威性问题
解决思路:用最权威那个渠道的数据

对不同渠道设定权威级别,然后再不同场合下选最重要的

4、数据合法性问题
解决思路:设定判定规则

(1)设定强制合法规则,凡事不在规则范围内的,强制设置最大值以及最小值,剔除或者判断为无效

字段类型合法规则:日期字段格式过滤

字段内容合法规则:性别 in(男、女、未知));出生日期《=今天

(2)设定警告规则,凡是不在规则范围内的,进行警告然后人工处理

(3)离群值人工特殊处理,使用分箱、聚类、回归等方式发现离群值

5、结局数据一致性问题
解决思路:简历数据体系

(1)指标体系(度量)

(2)维度(分组、统计口径)

(3)单位

(4)频度

(5)数据
温馨提示:答案为网友推荐,仅供参考
相似回答
大家正在搜