做数据分析如何保障数据的准确性?

如题所述

第1个回答  2022-07-16

从业多年,在数据准确性上摔过不少跟斗,总结了一些切实有效的方法,能够帮你尽可能的规避错误,确保数据的准确性,分享给大家

对数据上游的管理

虽然看上去,数据分析师是掌握数据资源的人,但从数据的生产流程来看,数据分析师其实位于数据的下游,数据需要至少先经过采集环节、清洗环节、存储环节才能被数据分析师拿到,甚至有的体量特别大的数据,他的调取和处理环节也不能被数据分析师控制。所以,想要最终做出的数据不出错,那就要先确保我们的数据上游是准确的。

虽然数据上游一般是由其他业务或技术人员负责,但数据分析师也可以通过提需求或生产过程参与的方式,对数据上游进行管理:

设立数据“安检站”

“大包小包过机安检”只要你坐过北京的地铁,相信这句话一定耳熟能详,为了确保所有旅客不把易燃易爆等危险品带入地铁内危及他人安全,地铁在每个进站口设置安检站对所有过往人员物品进行检查。虽然避免数据错误的最主要方法就是检查,但全流程无休止的数据检查显然是费时费力且效率低的,我们其实也可以在数据流入流出的关键节点设立“安检站”,只在这个时候进行数据检查。

一般我会在这些地方设立“安检站”:

几种行之有效的检查方法:

确保数据准确的几个日常习惯

除了上述成体系的错误规避手段外,几个日常的好习惯也可以让我们尽可能的离错误远一点:

以上,是确保数据准确的大致经验总结,几句最关键的话再重复唠叨一下:

数据处理的准确性校验一直是个难题,是否存在一些针对据处理准确性的通用做法呢?


下面是一些对于数据进行计算处理后,保证数据准确性的个人实践:


对于大部分数据来说,数据处理可以分为以下 五个步骤


1.数据采集;2.数据传输(实时/批量);3.数据建模/存储;4.数据计算/分析;5.数据可视化展示/挖掘


针对上面五点分别展开介绍:


一、数据采集


通常数据处理之前会有数据采集的过程,数据采集会涉及到多数据来源,每中数据来源由于格式等不一致,需要特殊处理。


1.针对不通的数据源,需要做到每个数据源获取 数据能够独立。


2.采集过程需要监控,传输之前如有条件,可以做到本地有备份数据,便于异常查找时进行数据比对。


二、数据传输(实时/批量)


数据源本地已经做到有备份的情况下,对于传输异常的时候,需要 支持重试 ,存储端需要支持去重。


三、数据建模/存储


数据存储可以针对结果集合进行冗余分类存储,便于数据进行比对,针对存储需要进行副本备份,同时数据可以考虑按生效记录进行叠加存储,支持回溯 历史 的存储结构进行存储。


四、数据计算/分析/挖掘


数据进行计算,分析的时候需要进行步骤分解,便于准确性的分析和统计


1.计算之前,支持测算,同时支持数据进行分批计算,需要能导出本批次清单基础数据(例如人员或者id),便于数据核对。


2.计算之中,支持快速少量指定的典型数据测算,支持选择,是否存储参与计算过程的全部的中间变量。


3.计算之后,可以选择,支持导出本次计算过程中的所有参与变量和中间变量参数,可以线下根据数据列表对应的参数,进行计算,从而进行数据准确性的核对。


计算过程中,支持针对有问题的数据ID进行染色,染色后的数据,所有的中间过程变量全部进行打印输出。


五、数据可视化展示


可视化挖掘过程,需要主要前台图形化界面的数据量

相似回答