可视化分箱出现的结果不相等该怎么办

如题所述

可视化分箱出现的结果不相等该怎么办?答:什么是可视分箱?

“可视分箱”可以拆解为两个词:“可视”+“分箱”。

“可视”:通过图像图表等方式显示数据的分布情况,使之更加清晰易懂。

“分箱”:对连续型变量进行分组,呈现的结果像分成一个个的箱子。

可视分箱怎么做?

1.打开案例数据,依次单击“转换→可视分箱”。
2、将要进行分箱操作的连续型变量“月度价格”选入右侧的“要分箱的变量”列表中,单击“继续”按钮。
3、可视分箱窗口解释。

变量“月度价格”的分布以直方图的形式呈现在窗口中部图像框中,可以借此图表了解该变量的离散情况。

接下来,看到窗口的左侧。上方为“已扫描变量列表”,即呈现上一步选入“要分箱的变量”列表中的变量。下方呈现该变量对应的扫描个案数和缺失值。

窗口的右上方显示当前变量的名称和标签,分箱后的名称和标签也可以在这里设置。在此之下、直方图之上,显示扫描变量的最值。

在直方图之下,可以设置变量分箱的分割点并生成标签。
4.单击“生成分割点”按钮,选择“等宽区间”,填写“分割点数”和“宽度”,分割点位置会自动生成。分割点数指要对该连续变量的区间作n个分割点,使之形成n+1个等宽区间。输入“分割点数”为4,“宽度”为0.55,单击“应用”按钮。
5、可视分箱”窗口的图像框中以明显的直线画出分割点,可以借此看到分箱情况。

6.单击“生成标签”按钮,在“网络”框架中会自动生成对应的标签,此框架中的值便是我们设置的分割点的值。

7.在图像框上设置“分箱后变量”的名称为“月度价格_2”。单击“确定”按钮。
8、弹出创建新变量的提示窗口,单击“确定”按钮。
9,生成一个新变量“月度数据_2”,这是根据“月度数据”变量进行等距分箱所得,将大量的连续型变量分为有限的组,会更方便之后的分析哦。
温馨提示:答案为网友推荐,仅供参考
第1个回答  2023-01-07
可视化分箱出现的结果不相等该怎么办

在风控建模过程中常常需要对变量进行分箱处理,主要是将连变量进行离散化处理形成类别变量,类别变量可以通过适当的合并。那么,分箱的作用是什么,有什么意义?常见的分箱方法有哪些?风控中常用的自动分箱方法的原理以及实现?如何评估分箱效果?针对这些问题,本文试图从分箱的意义,常用的分箱方法以及风控中的自动分箱方法原理及代码实现来进行梳理。也是作为学习笔记,旨在加深对理论以及代码原理的理解。

1. 分箱的意义

这里首先简单介绍一下分箱的定义,变量的分箱分为两种,一种是对连续变量进行离散化处理形成类别变量。比如将年龄划分为[10,20],[20,30],[30以上]等。而对于离散变量而言,其本身就是一种类别变量,所以这里的分箱主要的是将那些取值过多的离散变量进行合理的合并,从而减少变量的取值数量。

正所谓有目标才有动力,对数据这么一番这折腾的意义是什么,了解了这些才有继续学习的动力呀!所以,我们来梳理一下分箱的作用。

过去10年,数据可视化的普及和影响急剧增加,根据Google的数据显示,自2009年以来,“数据可视化”的搜索频率几乎增长了100%,同时,这一领域也出现了大量的软件和工具,几乎任何人都可以借助这些工具轻松地制作数据可视化图表。

由于人类大脑能够以更快的速度处理图像,所以出于本能,我们更热衷于使用图像表达而非文本。然而,这并不意味着你可以把大量的图像(或者说图表)以及各种形状的图形放在仪表盘上,并期望读者为之赞叹。在图像认知背后,你还要考虑其他东西,这与人类的潜意识相关,我们称之为第一印象。
我们都知道这句话:第一印象会持续一生。有非常多的例子也可以证明这一点。比如我们会本能的战斗和逃跑,类似于这种无意识思维的行为,也可以称为快速认知。毫无疑问,这要比经过深思熟虑所产生的决策更为本能,也更加迅速。

快速认知是我们在非常短暂的时间中进行挖掘和衡量的重要能力。尽管我们被告知不要试图从封面来判断一本书的好坏,但我们每天都在频繁地使用这种快速认知的能力,通过它快速解析海量信息,发现哪些是最为重要的,而非更多采取较慢的、理性的思维方式。

心理学家将这种现象称为“薄片(thin-slicing)”:在几秒钟内感知细节或信息,大脑的理性部分可能花费数月甚至数年的时间。Malcolm Gladwell将其描述如下:

薄片(thin-slicing)是人类的重要组成部分。每当遇到一个陌生人或必须快速理解的某件事时,我们就会触发薄片现象......如今,我们非常依赖这种能力,因为在很多情况下,即使不超过一秒钟,我们也能分辨出很多信息。

当然,在现实中,你可以通过某些方法来改变或反驳他人对你的不良的第一印象,让他们可以更加深入的了解你,但在网络中要困难的多。所以,绝不能让你的数据可视化给人留下不好的第一印象。为了防止这种情况发生,下面我将着重讲解5个数据可视化过程中常见的错误类型。本回答被网友采纳
相似回答