数据处理是对采集到的数据进行加工整理?

如题所述

数据处理是指对采集到的数据进行加工整理,形成适合数据分析的样式,保证数据的一致性和有效性。它是数据分析前必不可少的阶段。数据处理的基本目的是从大量的、可能杂乱无章的、难以理解的数据中抽取并推导出对解决问题有价值、有意义的数据。如果数据本身存在错误,那么即使采用最先进的数据分析方法,得到的结果也是错误的,不具备任何参考价值,甚至还会误导决策。数据处理主要包括数据清洗、数据转化、数据抽取、数据合并、数据计算等处理方法。一般的数据都需要进行一定的处理才能用于后续的数据分析工作,即使再“干净”的原始数据也需要先进行一定的处理才能使用。现实世界中的数据大体上都是不完整、不一致的脏数据,无法直接进行数据分析,或分析结果不尽如人意。数据预处理有多种方法:数据清理、数据集成、数据变换、数据归约等。把这些影响分析的数据处理好,才能获得更加精确的分析结果。以大众最近关心的空气质量数据为例,很可能其中有很多天的数据由于设备的原因是没有监测到的,有一些数据是记录重复的,还有一些数据是设备故障时监测无效的。那么需要用相应的方法去处理,如残缺数据,是直接去掉这条数据,还是用临近的值去补全,这些都是需要考虑的问题。当然在这里我们还可能会进行数据分组、基本描述统计量的计算、基本统计图形的绘制、数据取值的转换、数据的正态化处理等,通过这些操作掌握数据的分布特征,以帮助我们进一步深入分析和建模。
温馨提示:答案为网友推荐,仅供参考
相似回答