数据分析(二):数据清洗步骤

如题所述

数据分析的步骤分为5步:数据清洗,构建模型,数据可视化。
一、理解数据
首先要理解数据集中的数据字段意义,以及数据集的数据类型:文本型,数值型,逻辑型,错误值。
二、数据清洗
数据清洗也叫做数据预处理,一般进行数据清洗需要通过7个步骤进行处理:
1. 选择子集:选择需要进行分析的数据集中的数据列,为避免干扰可对其他不参与分析的数列进行隐藏处理。
2. 列名重命名:若数据集中出现同样列名称,或含义相同的两个列名,为避免干扰分析结果则需要针对某一个数据列的列名进行重命名。
3. 删除重复值:删除数据中的重复数据值,注意只会保留重复数据的第一条数据。
4. 缺失值处理:原始数据中可能会出现数据值缺失,即数据集中存在无数据的数据单元格。在数据分析时会影响结果,需要将缺失的数据值进行补全。可人工手动一次性补全缺失值:首先通过定位条件查找的方式,查找到缺失值。然后Ctrl选中所有缺失值,在公式输入框输入对应内容,使用Ctrl+Enter可补全选中的缺失值。
5. 一致化处理:数据集中会存在某一个数据列的数据至标准不一致或命名规则不一致的情况,可以使用分列功能将不一致的数据列中的数据值进行拆分。
6. 数据排序处理:对列数据集中的数据进行筛选排序,升序,降序排列等函数的应用。
7. 异常值处理:即数据处理模式,Split(数据分组)-Apply(函数应用)-Combine(组合结果)。数据的组合结果,对清洗后的数据进行分析,应用到数据透视表。
三、构建模型
还是以招聘数据为例,提出哪个城市的找到数据分析的工作机会比较大的问题?创建城市的数据透视表,筛选出不同城市对数据分析职位的工作年限要求排名,通过右键选择列汇总百分比,数据按照百分比的形式进行展示。使用Excel的分析工具库,生成早禅模平均薪水的描述统计,且针对行(城市),值(平均薪水)建立数据透视表,获得不同城市的平均薪水数据指标。
四、多表关联查询
Vlookup的使用:
1. vlookup函数:找什么,在哪找,第几列,是准确的找还是近似的找。若有多个值满足查找条件,只会显示查找到的第一条数据,所以如何查找重复值。通过添加辅助列,用姓名+学号进行相对引用的形式输入内容,例如猴子001=C2+B2,再通过使用vlookup改变表2要查找的区域,并重新设置表2要查找的位置参数,以及查找的方式为"0"模糊查。这样就可以区分出同一个姓名不同的班组。
2. 对数据进行分组:有两组数据,但缺少消费分组的数据。使用vlookup对数据进行分组处理。选中C2单元格,插入函数vlookup,选择表1的数据列,表2的区域(注意要绝对引用,获取表2数据的位置,查找方式),即可对当前月份的消费水平根据表2进行消费分组。
五、引用方式
1. 相对引用:A1
2. 绝对引用:$A$1
3. 混合引用:$A1$
总结:本章内容主要从Excel工具的角度,对数据进行分析需要的基本步骤进行概述。内容较为繁杂,后期会对内容进行多个子章节的内容详细分析。
补充:=DATEDIF(出生时间,购买时间,”M”)计算购买时的月份“M”月份,“Y”年份,“D”天=IFERROR(DATEDIF(I5,G5,"M"),"错误"):如果返回错误值,显示“错误”。
温馨提示:答案为网友推荐,仅供参考
相似回答