一、解决数据质量问题
数据的完整性,比如人的属性中缺少性别、籍贯、年龄等
数据的唯一性,比如不同来源的数据出现重复的情况
数据的权威性,比如同一个指标出现多个来源的数据,且数值不一样
数据的合法性,比如数据与常识不符,市区内开车速度到达了400km/h
数据的一致性,比如不同来源的不同指标,实际的内涵与表示意义是一样的
数据清洗的结果是对各种脏数据进行对应标准的干净的、连续的数据,提供给数据统计、数据挖掘等使用。
1、数据完整性问题
解决思路:数据补全
(1)通过其他信息补全,比如通过身份证号码推算性别、籍贯、出生日期、年龄等
(2)通过前后数据补全,例如时间序列确实,可以使用前后的均值填充,缺的数据多了,可以使用平滑处理
(3)实在补不全的,必须剔除,但是不要删除,说不定以后用得上
2、数据唯一性问题
解决思路:去除重复记录,只保留一条
(1)按照主键去重,用sql或者excel去除重复记录即可
(2)按照规则去重,编写一系列规则,对重复情况负责的数据去重,例如不同渠道来的客户数据,可以通过相同的关键信息进行匹配,合并去重
3、数据权威性问题
解决思路:用最权威那个渠道的数据
对不同渠道设定权威级别,然后再不同场合下选最重要的
4、数据合法性问题
解决思路:设定判定规则
(1)设定强制合法规则,凡事不在规则范围内的,强制设置最大值以及最小值,剔除或者判断为无效
字段类型合法规则:日期字段格式过滤
字段内容合法规则:性别 in(男、女、未知));出生日期《=今天
(2)设定警告规则,凡是不在规则范围内的,进行警告然后人工处理
(3)离群值人工特殊处理,使用分箱、聚类、回归等方式发现离群值
5、结局数据一致性问题
解决思路:简历数据体系
(1)指标体系(度量)
(2)维度(分组、统计口径)
(3)单位
(4)频度
(5)数据
温馨提示:答案为网友推荐,仅供参考