第1个回答 2024-08-11
想要投身大数据领域的小伙伴们,对于大数据技术需要掌握哪些基础知识感到困惑,需要明确学习方向。下面,我将为大家梳理一下大数据需要学习的内容。首先,学习大数据需要掌握的基础知识包括javaSE,EE(SSM)。90%的大数据框架都是使用Java编写的。例如,MongoDB是最受欢迎的,跨平台的,面向文档的数据库;Hadoop是用Java编写的开源软件框架,用于分布式存储,并对非常大的数据集进行分布式处理;Spark是Apache Software Foundation中最活跃的项目,是一个开源集群计算框架;Hbase是开放源代码,非关系型,分布式数据库,采用Google的BigTable建模,用Java编写,并在HDFS上运行;MySQL是必须掌握的,SQLon Hadoop又分为batch SQL(Hive),interactive SQL,operation SQL。Linux操作系统也是程序员必须掌握的,大数据的框架安装在Linux操作系统上。
大数据的系统学习资料已经为大家准备好了,从Linux-Hadoop-spark-......,需要的小伙伴可以点击进入。接下来,需要学习的内容包括大数据离线分析。处理T+1数据时,需要重点关注Hadoop(common、HDFS、MapReduce、YARN)。Hadoop的框架最核心的设计是HDFS和MapReduce。Hadoop主要是环境搭建和数据处理思想。Hadoop用Java编写的开源软件框架,用于分布式存储,并对非常大的数据集进行分布式处理。HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算。Hive(MPP架构)是大数据数据仓库,通过写SQL对数据进行操作,类似于mysql数据库中的sql。HBase是基于HDFS的NOSQL数据库,面向列的存储。列存储的思想是将元组垂直划分为列族集合,每一个列族独立存储,列族可以退化为只包含一个列的平凡列族。当查询少量列时,列存储模型可以极大的减少磁盘IO操作,提高查询性能。扩展前沿框架包括sqoop、RDBMS、flume、调度框架anzkaban、crontab、Kylin、Impala、ElasticSearch等。