第1个回答 2023-01-07
可视化分箱出现的结果不相等该怎么办
在风控建模过程中常常需要对变量进行分箱处理,主要是将连变量进行离散化处理形成类别变量,类别变量可以通过适当的合并。那么,分箱的作用是什么,有什么意义?常见的分箱方法有哪些?风控中常用的自动分箱方法的原理以及实现?如何评估分箱效果?针对这些问题,本文试图从分箱的意义,常用的分箱方法以及风控中的自动分箱方法原理及代码实现来进行梳理。也是作为学习笔记,旨在加深对理论以及代码原理的理解。
1. 分箱的意义
这里首先简单介绍一下分箱的定义,变量的分箱分为两种,一种是对连续变量进行离散化处理形成类别变量。比如将年龄划分为[10,20],[20,30],[30以上]等。而对于离散变量而言,其本身就是一种类别变量,所以这里的分箱主要的是将那些取值过多的离散变量进行合理的合并,从而减少变量的取值数量。
正所谓有目标才有动力,对数据这么一番这折腾的意义是什么,了解了这些才有继续学习的动力呀!所以,我们来梳理一下分箱的作用。
过去10年,数据可视化的普及和影响急剧增加,根据Google的数据显示,自2009年以来,“数据可视化”的搜索频率几乎增长了100%,同时,这一领域也出现了大量的软件和工具,几乎任何人都可以借助这些工具轻松地制作数据可视化图表。
由于人类大脑能够以更快的速度处理图像,所以出于本能,我们更热衷于使用图像表达而非文本。然而,这并不意味着你可以把大量的图像(或者说图表)以及各种形状的图形放在仪表盘上,并期望读者为之赞叹。在图像认知背后,你还要考虑其他东西,这与人类的潜意识相关,我们称之为第一印象。
我们都知道这句话:第一印象会持续一生。有非常多的例子也可以证明这一点。比如我们会本能的战斗和逃跑,类似于这种无意识思维的行为,也可以称为快速认知。毫无疑问,这要比经过深思熟虑所产生的决策更为本能,也更加迅速。
快速认知是我们在非常短暂的时间中进行挖掘和衡量的重要能力。尽管我们被告知不要试图从封面来判断一本书的好坏,但我们每天都在频繁地使用这种快速认知的能力,通过它快速解析海量信息,发现哪些是最为重要的,而非更多采取较慢的、理性的思维方式。
心理学家将这种现象称为“薄片(thin-slicing)”:在几秒钟内感知细节或信息,大脑的理性部分可能花费数月甚至数年的时间。Malcolm Gladwell将其描述如下:
薄片(thin-slicing)是人类的重要组成部分。每当遇到一个陌生人或必须快速理解的某件事时,我们就会触发薄片现象......如今,我们非常依赖这种能力,因为在很多情况下,即使不超过一秒钟,我们也能分辨出很多信息。
当然,在现实中,你可以通过某些方法来改变或反驳他人对你的不良的第一印象,让他们可以更加深入的了解你,但在网络中要困难的多。所以,绝不能让你的数据可视化给人留下不好的第一印象。为了防止这种情况发生,下面我将着重讲解5个数据可视化过程中常见的错误类型。本回答被网友采纳