从零开始入门数据分析-PowerBi入门篇

如题所述

第1个回答  2023-09-08

本文章有助于大家了解BI工具-PowerBi的使用。通过本文章,零基础也可以轻松搭建自己的可视化看板!后续也会发布一些其他主流的BI工具,但是BI工具总体逻辑上和使用上大同小异。

一、表的概念

在正式介绍powerbi之前,对‘表’这个概念的深入理解是十分有必要的。

1、表的类别:维度表及事实表

(1)事实表:它的主要特点是往往每一行数据代表一个事件、事实或记录,能够提取出度量值信息,数据量较大,也被称为数据表(例如:销售数据表、订单数据表、用户行为数据表等)。

(2)维度表:它的主要特点是包含类别属性信息,数据量较小,包括例如日期、门店名称、产品ID、顾客ID这些不重复的唯一字段。它也被称为Lookup表,是因为在Excel中我们经常把它们当作Vlookup函数中的目标查询表来使用(例:日历表、门店信息表、产品表、顾客信息表等)。

2、维度表和事实表举例

举个例子,更便于大家理解:

该表为事实表,可以看到每条都是记录一个事实:

相对于上面这个事实表,下表为维度表:

二、PowerBi基础

1、PowerBi简介:PowerBi是软件服务、应用和连接器的结合,它们协同工作以将相关数据来源转换为连贯的视觉逼真的交互见解。

2、数据可视化的定义:通过数据与图像的结合,更直观的获取信息。

3、Power Bi主要由三部分组成:Power Query(Data Analysis Expression)、数据建模以及可视化看板。

(1)Power query:编辑查询器帮助我们完成数据源整理工作,在你关闭并应用操作后,结果就被存储在可编辑查询中。

(2)数据建模:将维度表与事实表通过某字段建立对应关系(1对1或1对多),将数据连通。也可称为关系视图。

(3)可视化看板:通过各类可视化组件、切片器等完成可视化看板的搭建。

4、度量值与DAX

(1)度量值:用于展示关键指标。度量值大家可以理解为它是以一个公式的形式存在于Power Bi中,它不会使得你的数据表中产生新列或者新的行。因此和EXCEL中直接插入列导致产生大量新数据相比,度量值几乎不会占用内存。构建度量值的语言称为DAX(Data Analysis Expression)。

(2)DAX:与EXCEL中的公式很相似,只不过EXCEL中的公式引用的是单元格(如‘A1’,‘B3’)。而DAX引用的是某张表中的某列的名称。

例如:[销售量]=sum('销售数据'[数量])

注:在DAX中,单引号''中的为表名。方括号[]中的为列名。

想要搭建一个可视化看板,大致的流程可以分为:数据获取→数据清洗→数据建模→可视化看板搭建。下面会逐个步骤详细介绍。

三、数据获取

PowerBi支持多种数据源,像各种本地文件:Excel、CSV、文件夹等。支持各类数据库:Oracel、Mysql等。支持由表格构成前端的Web等。

以Excel为例,由于一个Excel文件可能包括很多个sheet,因此可以在左侧进行勾选,之后点击加载。其中“转换数据”指在将数据加载至PowerBi之前可以先对数据进行预处理,当然加载之后也可进行处理。但是如果数据量过大,或数据源中有很多列或者行是无用的,那么建议在加载数据前先将数据进行预处理(预处理和数据清洗方法一样,会在数据清洗章节详细说明)。

四、数据清洗

什么是数据清洗,一句话概括就是:将数据变成你想要且可用的。

(1)数据清洗的方式和方法

其中方式指实现清洗的工具或途径,例如可以在Powerbi中通过Power Query清洗,也可以在加载至Powerbi之前,通过SQL程序实现数据清洗。

其中方法为将去除空值,去除重复值,合并列,拆分列,修改数据类型,数据逆透视等等。

(2)以Power Query为例,我们可以在Power Query的工具栏中通过各种方法实现数据清洗:

在Power Query界面,通过在Powerbi中点击“转换数据”即可进入,图中1部分展示了你可以进行的数据清洗方式,图中2展示了已经加载到Powerbi中的数据,图中3记录了你每次进行操作的记录(例如你删除一列,则在右侧就会记录下你删除一列的操作)。

清洗完成后,点击左上角的关闭并应用,所有的后台数据都会被保存并跳转回画布界面。

五、数据可视化

获取并清洗了数据后,就可以用清洗后的数据搭建看板。

1、画布功能界面介绍

部分是功能区,常用的包括:获取数据,转换数据,刷新等等。

部分从上到下依次为:画布展示,数据总览,数据建模。其中数据建模指将不同数据源的数据链接起来。

部分为可以使用的可视化组件(点击后即可拖拽),可视化组件下方为该可视化组件都展示了哪些字段(可以简单理解为横纵坐标都展示哪些数据)。

部分展示了数据的各个表的信息,各个表的每个列信息以及插入的度量值信息。

2、可视化组件介绍

(1)以柱状图折线图为例:

首先点击进入到画布界面,选中可视化组件类型,之后将数据中的字段拖拽到X轴或Y轴,即可实现简单的可视化图表的创建。

(2)图表的格式编辑

上图中红圈内部为图标格式编辑,例如图标颜色,标题,数据标签等等,如果在“视觉对象”选项中找不到要更改的属性,则可以在“常规”选项中进行编辑。