数据挖掘-DEA(探索性数据分析)

如题所述

第1个回答  2022-06-20
      探索性数据分析是指:对已经有的数据在尽量少的先验假定下进行数据探索,可以通过绘图、制表、数学拟合、计算特征量等手段探索数据的结构和规律。特别对于现在所面临的大数据时代,各种杂乱的“脏数据”,通常使我们不知从何下手去了解手上的数据集,这个时候探索性分析就很有效了。

离散型:离散型数据相当于分类数据,如班上学生的人数、扔骰子的结果、性别、种族等。

连续型:也即是在值域里面是连续取值,这种变量一般是有序的,如身高(可以是在人类的身高范围内的任意值)、叶子的长度、狗的体重等。

1、让你最大程度得到数据的直觉

2、发掘潜在的结构

3、提取重要的变量

4、删除异常值

5、检验潜在的假设

6、建立初步的模型

7、决定最优的因子设置

1、数据的典型值是多少(均值、中位数)?

2、典型值的不确定性是什么?

3、一组数据的良好分布拟合是什么?

4、数据的分位数是多少?

5、一个工程上的修改是否有作用?

6、一个因子是否有影响?

7、最重要的因素是什么?

8、来自不同实验室的测量结果是否相等?

9、将响应变量与一组因子变量相关联的最佳函数是什么?

10、什么是最好的因子设置?

11、我们可以将时间相关数据中的信号与噪声分离吗?

12、我们可以从多变量数据中提取任何结构吗?

13、数据是否有离群值?

参考:

https://blog.csdn.net/fjssharpsword/article/details/79152012

https://blog.csdn.net/a358463121/article/details/55003356

写在学习后的话:第一次接触数据挖掘的知识,第一次写网络文章,排版有点乱(尴尬),希望自己在这次datawhale组织的数据挖掘课程中能学到知识,结交优秀的朋友。
相似回答
大家正在搜