大数据时代,数据价值的挖掘依赖于数据清洗、分析、建模与可视化。数据中常存在“脏数据”,如不完整、不规范或不准确的数据。数据清洗旨在去除这些不合规数据,确保数据质量。清洗方法包括:
一致性检查: 检查数据是否符合合理范围及逻辑关系,如年龄、体重等不能出现负值。使用软件如SPAA、SAS或Excel识别异常数据。
处理无效值与缺失值: 常用方法有估算、整例删除、变量删除与成对删除。估算时,用样本均值、中位数或众数替换;整例删除适用于关键变量情况;变量删除针对无效值较多、不重要变量;成对删除保留完整样本,计算时仅用有完整答案的数据。
数据清洗原理: 利用数据仓库、数理统计、数据挖掘或预定义规则,将“脏数据”转换为满足要求的数据。预定义规则通过大数据算法实现;数理统计清洗通过程序清洗,适用于无监督学习中的聚类,但清理过程需反复调整。
数据清洗流程: 包括数据预处理、缺失值清洗、格式与内容清洗、逻辑错误清洗及关联性验证。预处理选择处理工具,查看元数据与数据特征;缺失值清洗确定范围、删除字段、填充内容及重新获取数据;格式与内容清洗处理显示格式不一致、字符错误与内容不符;逻辑错误清洗包括数据去重、去掉不合理数值及不可靠字段;关联性验证通过多数据源关联性选择准确特征。
数据清洗工具: OpenRefine、DataCleaner、Kettle与Beeload。OpenRefine具有数据画像、清洗、转换功能,易于操作;DataCleaner适用于分析、比较、验证及监控数据,转换数据集为可视化格式;Kettle作为ETL工具,支持图形化设计,开源免费;Beeload支持主流数据接口,用于数据抽取、转换与装载。
实战操作: 以水利局输沙率文件为例,使用OpenRefine进行数据导入、查看、清洗与导出。启动程序,选择文件导入,启动数据记录显示界面,对数据进行清洗与转换。通过过滤、查询、编辑与导出实现数据处理。Excel中,进行数据验证与无效数据圈注,删除重复值以清除无效数据。