大量化(Volume)指数据的数量巨大。日新月异的信息存储技术使得存储大量数据的成本越来越低,特别是
分布式存储技术的日益成熟,逐渐使得存储 PB、EB 甚至 ZB 级别的数据成为可能。
多样性(Variety)指数据的种类繁多。只需要连上互联网,就可以随时随地查看并获取想要的数据,但与此同时也面临了一系列的挑战。互联网上的数据虽多,但大部分数据的呈现形式为非结构化或半结构化的。如何将不同的
数据结构归结到统一的结构中是一个重要的问题。
快速化(Velocity)是指目前
大数据时代,数据越来越实时化,数据的产生与处理速度逐渐能够满足人们的需求。
价值密度低(Value)是大数据中最为关键的一点, 虽然真实世界中的数据量极大,但真正有价值的内容 却较少。以监控视频为例,虽然监控视频的内容极其之大,但实际有价值的部分可能不过几分钟。如何利用云计算等技术从大量的数据中提取出最为关键、最有价值的部分,并将信息转换成知识是值得研究的内容。