1.数据——人类建造文明的基石

如题所述

第1个回答  2022-07-22

数据将成为下一次技术革命和社会变革的核心动力。

数据不仅指数字,它的范畴是随着文明的进程不断变化和扩大的,包括语音、图文、各种行为等。

信息是关于世界、人和事的描述,它比数据来得抽象。信息既可以是我们人类创造的,也可以是天然存在的客观事实。

数据最大的作用在于承载信息,但是并非所有的数据都承载了有意义的信息。数据本身是人造物,因此它们可以被随意制造,甚至可以被伪造。没有信息的数据通常没有太大意义

如何从数据中获取有用的信息,过滤掉没有用的噪声和删除有害的数据,从而获取数据背后的信息,就成为技术甚至是一种艺术。只有善用数据,我们才能够得到意想不到的惊喜,即数据背后的信息

随着人类的进步以及处理数据和信息的能力不断增强,人类从数据中获取有用信息的本事就越来越大,这就是今天所说的大数据应用的基础。

对数据和信息进行处理后,人类就可以获得知识。知识比信息更高一个层次,也更加抽象,它具有系统性的特征。

比如通过测量星球的位置和对应的时间,就得到数据;通过这些数据得到星球运动的轨迹,就是信息;通过信息总结出开普勒三定律,就是知识。人类的进步就是靠使用知识不断地改变我们的生活和周围的世界,而数据是知识的基础。

早期人类得到的数据是从哪里来的?其中一个重要的来源是对现象的观察。从观察中总结出数据,是人类和动物的重要区别,后者虽具有观察能力,却无法总结出数据,但是人类有这个能力。而得到数据和使用数据的能力,是衡量文明发展水平的标准之一。

观察--总结数据--提取信息--总结规律和模型--形成知识--改变世界(获取数据--分析数据--建立模型--预测未知)

好的模型要和数据相吻合。

数据的作用自古有之,并非到了今天大数据时代大家才意识到。但是在过去数据的作用常常被人们忽视。这里面有两个原因, 首先是由于过去数据量不足 ,积累大量的数据所需要的时间太长,以至于在较短的时间里它的作用不明显。其次,数据和所想获得的信息之间的联系通常是间接的,它要通过不同数据之间的相关性才能体现出来。可以说, 相关性是让数据发挥出作用的魔棒

很多时候,我们无法直接获得信息(比如疫情传播情况),但是我们可以将相关联的信息(比如各地搜索情况)量化,然后通过数学模型,间接地得到所要的信息。而各种数学模型的基础都离不开概率论和统计学

统计学中数据采集上的两个要点——量和质。

要想取得准确的统计结果,统计首先要求数据量充足,在统计样本数量不充分的情况下,统计数字毫无意义。至于需要多少数据统计结果(在我们这个问题里是概率的估计)才是准确的,这就需要进行定量分析了。越想要得到准确的统计结果,需要的统计数据量就越大。

统计除了要求数据量必须充分以外,还要求采样的数据具有代表性。有些时候不是数据量足够大,统计结果就一定准确。统计所使用的数据必须和我们想统计的目标相一致。

在互联网出现之前,获得大量的具有代表性的数据其实并非一件容易事。

用抽样数据来估计一个概率分布是一类非常简单的问题,用统计数据做一做加减乘除即可。但是在大多数复杂的应用中,需要通过数据建立起一个数学模型,以便在实际应用中使用。要建立数学模型就要解决两个问题,首先是采用什么样的模型,其次是模型的参数是多少。

模型的选择不是一件容易的事情,通常简单的模型未必和真实情况相匹配,一个典型的例子就是,无论支持地心说的托勒密,还是提出日心说的哥白尼,都假定行星运动轨迹的基本模型是最简单的圆,而不是更准确的椭圆。由此可见,如果一开始模型选得不好,那么以后修修补补就很困难。因此,在过去,无论在理论上还是工程上,大家都把主要的精力放在寻找模型上。

有了模型之后,第二步就是要找到模型的参数,以便让模型至少和以前观察到的数据相吻合。这一点在过去的被重视程度远不如找模型。但是今天它又有了一个比较时髦而高深的词——机器学习

鉴于完美的模型未必存在,即使存在,找到它也非常不容易,而且费时间,因此就有人考虑是否能通过用很多简单不完美的模型凑在一起,起到完美模型的效果呢? 只要找到足够多的具有代表性的样本(数据),就可以运用数学找到—个模型或者一组模型的组合,使得它和真实情况非常接近

采用多而简单的模型常常比一个精确的模型成本更低,也被使用得更普遍。

其实只要数据量足够,就可以用若干个简单的模型取代一个复杂的模型。这种方法被称为数据驱动方法,因为它是先有大量的数据,而不是预设的模型,然后用很多简单的模型去契合数据

数据驱动方法要想成功,除了数据量大之外,还要有一个前提,那就是样本必须非常具有代表性。

在今天的IT领域中,越来越多的问题可以用数据驱动方法来解决。具体讲,就是当我们对一个问题暂时不能用简单而准确的方法解决时,我们可以根据以往的历史数据,构造很多近似的模型来逼近真实情况,这实际上是用计算量和数据量来换取研究的时间。

数据驱动方法最大的优势在于,它可以在最大程度上得益于计算机技术的进步。

计算机变得越来越聪明,这并非是因为我们对特定问题的认识有了多大的提高,而是因为在很大程度上我们靠的是数据量的增加。

可以用来说明数据驱动方法对机器智能产生作用的最佳案例,恐怕要数2016年在计算机行业最热门的事件——Google的AlphaGo计算机战胜天才围棋选手李世石了。AlphaGo在围棋方面有很高的智能,来源于它对能找到的全部几十万盘人类高手对弈的分析总结。这么多的对弈是任何人类高手一辈子也学习不完的。在总结了几十万盘的数据后,AlphaGo得到了一个统计模型,对于在不同的局势下该如何行棋有一个比人类更为准确的估计。这就是AlphaGo显得很聪明的原因。

数据驱动方法,是大数据的基础,也是智能革命的核心,更重要的是,它带来一种新的思维方式。

相似回答