大数据预处理的方法有哪些?

请问,大数据预处理的方法有哪些?

1、数据清理


数据清理例程就是通过填写缺失值、光滑噪声数据、识别或者删除离群点,并且解决不一致性来进行“清理数据”。


2、数据集成


数据集成过程将来自多个数据源的数据集成到一起。


3、数据规约


数据规约是为了得到数据集的简化表示。数据规约包括维规约和数值规约。


4、数据变换


通过变换使用规范化、数据离散化和概念分层等方法,使得数据的挖掘可以在多个抽象层面上进行。数据变换操作是提升数据挖掘效果的附加预处理过程。

温馨提示:答案为网友推荐,仅供参考
第1个回答  2022-07-01
大数据预处理技术主要完成对已接收数据的辨析、抽取、清洗等操作。
(1)抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。
(2)清洗:大数据并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项,因此,要对数据进行过滤“去噪”,从而提取出有效数据。
相似回答