Spark 编译安装前的准备工作

1. 构建Linux 虚拟机或物理测试节点(1~3台)

2. 安装JDK 1.7

3. 安装Scala 2.10

4. 安装maven 编译工具(仅需要在编译节点上安装,笔者这里使用的是自己的虚拟机)

Spark 下载

下载地址:http://spark.apache.org/downloads.html

从上述地址下载最新源码1

 

Spark IDEA 源码阅读环境搭建

1.将下载好的源码copy到workspace 下并解压

解压命令:tar -xzvf  spark-version.tgz

1

2.使用IDEA 打开Spark项目,这时IDEA 会对Spark项目结构进行分析这个过程需要一段时间

File->Open

1

 

1

 

Spark 编译

进入Spark 目录,在终端输入如下编译命令(编译命令中的依赖组件可以根据自己的需要增删)

mvn clean install -Dhadoop.version=2.7 -Pyarn,spark,spark-ganglia-lgpl,kinesis-asl,hive -DskipTests -Dfindbugs.ski-Dmaven.javadoc.skip -Dcheckstyle.skip package

编译成功截图如下

1

编译完成后需要使用$SPARK_HOME/dev/make-distribution.sh 生成部署包

小结:

Spark的源码阅读环境对于我们学习Spark 运行机制和原理是非常重要的,后续将会介绍如何搭建一个Spark 集群

 

参考文献:

【1】 官方文档 http://spark.apache.org/docs/2.0.2/building-spark.html