怎样用eclipse开发spark

如题所述

设置环境变量:HADOOP_HOME,在windows下调试Eclipse时,并不需要在windows下安装hadoop,只需要配置一下环境变量就好了,然后HADOOP_HOME执行的位置的bin下要有winUtils.exe,设置环境变量的方式不用讲了吧!

在Eclipse项目中添加spark-assembly-1.4.1-hadoop2.4.0.jar,这里添加你需要的版本。
注意,不要使用spark的分散的jar包,这一点主要是maven时需要注意,因为maven时它会下载好多jar,这里会引进第二个问题,序列化问题,应该是scala的问题。

设置环境变量SPARK_CLASSPATH,这个环境变量不是必须的,你看一下你的服务器是不是设置了。
其实这一步和下面的一步本质作用是一样的,都是告诉spark依赖的jar,而告诉spark依赖jar的方法有两种,一种是设置环境变量,另一种是addJar方式。作者是这样认为,如果公用的jar,那么就通过设置环境变量的方式,如果是算法私有的jar,就通过addJar方式。
注意,环境变量SPAKR_CLASSPATH的值是unix方式,就是跟服务器设置的一样,不要用win的方式“;”,为啥呢?作者认为,通过设置环境变量的方式时,在初始化spark上下文时,并没有分发jar到各个worker,所以需要指定jar在服务器的位置。(有问题的话,请留言,嘴拙)

addJar方式,上面讲过了。
与环境变量的方式区别在于,驱动程序启动,初始化上下文时,需要分发jar到各个worker,所以针对私有的jar,最好使用addJar方式。
温馨提示:答案为网友推荐,仅供参考
相似回答