数据清洗方法的阐述

如题所述

1. 数据清洗是审查和校正数据的过程,旨在删除重复信息,纠正错误或不一致之处,并确保数据的一致性。
2. 该术语的字面意义即为“清洗”掉数据中的“污点”,指的是识别并修正数据集中的错误和不一致性的最后一步,这包括数据一致性的检查、处理无效和缺失数据等。
3. 在数据仓库中,数据是围绕特定主题组织的,从不同的业务系统中提取并包含历史信息。这样的数据集中可能包含错误或冲突的数据,这些数据通常被称为“脏数据”。数据清洗的目的就是根据特定规则去除这些“脏数据”。
4. 数据清洗的任务是筛选出不符合要求的数据,并将筛选结果提交给业务部门进行确认。确认后,决定是保留数据、修正数据还是彻底删除。
5. 不符合要求的数据主要包括不完整、错误或重复的数据。与问卷审核不同,数据录入后的清洗通常由计算机程序自动完成,而不是人工进行。
温馨提示:答案为网友推荐,仅供参考
相似回答
大家正在搜