1、在大数据采集与预处理方向
这方向最常见的问题是数据的多源和多样性,导致数据的质量存在差异,严重影响到数据的可用性。针对这些问题,目前很多公司已经推出了多种数据清洗和质量控制工具(如IBM的Data Stage)。
2、在大数据存储与管理方向
这方向最常见的挑战是存储规模大,存储管理复杂,需要兼顾结构化、非结构化和半结构化的数据。分布式文件系统和分布式数据库相关技术的发展正在有效的解决这些方面的问题。在大数据存储和管理方向,尤其值得我们关注的是大数据索引和查询技术、实时及流式大数据存储与处理的发展。
3、大数据计算模式方向
由于大数据处理多样性的需求,目前出现了多种典型的计算模式,包括大数据查询分析计算(如Hive)、批处理计算(如Hadoop MapReduce)、流式计算(如Storm)、迭代计算(如HaLoop)、图计算(如Pregel)和内存计算(如Hana),而这些计算模式的混合计算模式将成为满足多样性大数据处理和应用需求的有效手段。
4、大数据分析与挖掘方向
在数据量迅速膨胀的同时,还要进行深度的数据深度分析和挖掘,并且对自动化分析要求越来越高,越来越多的大数据数据分析工具和产品应运而生,如用于大数据挖掘的R Hadoop版、基于MapReduce开发的数据挖掘算法等。