如何使用docker快速搭建Spark集群

　　Spark 是 Berkeley 开发的分布式计算的框架，相对于 Hadoop 来说，Spark 可以缓存中间结果到内存而提高某些需要迭代的计算场景的效率，目前收到广泛关注。下面来一起看看使用docker快速搭建Spark集群的方法教程。

　　适用人群

　　正在使用spark的开发者

　　正在学习docker或者spark的开发者

　　准备工作

　　安装docker

　　(可选)下载java和spark with hadoop

　　Spark集群

　　Spark运行时架构图

如何使用docker快速搭建Spark集群三联

　　如上图: Spark集群由以下两个部分组成

　　集群管理器(Mesos, Yarn或者standalone Mode)

　　工作节点(worker)

　　如何docker化(本例使用Standalone模式)

　　1、将spark集群拆分

　　base(基础镜像)

　　master(主节点镜像)

　　worker(工作镜像)

　　2、编写base Dockerfile

　　注: 为方便切换版本基础镜像选择的是centos, 所以要下载java和spark, 方便调试, 可以下载好安装文件后本地搭建一个静态文件服务器, 使用Node.js 的http-server可以快速搞定

　　命令如下

　　npm install http-server -g

　　http-server -p 54321 ~/Downloads

　　正式开始写Dockerfile

　　FROM centos:7

　　MAINTAINER RavenZZ

　　# 安装系统工具

　　RUN yum update -y

　　RUN yum upgrade -y

　　RUN yum install -y byobu curl htop man unzip nano wget

　　RUN yum clean all

　　# 安装 Java

　　ENV JDK_VERSION 8u11

　　ENV JDK_BUILD_VERSION b12

　　# 如果网速快,可以直接从源站下载

　　#RUN curl -LO "$JDK_VERSION-$JDK_BUILD_VERSION/jdk-$JDK_VERSION-linux-x64.rpm" -H 'cookie: oraclelicense=accept-securebackup-cookie' && rpm -i jdk-$JDK_VERSION-linux-x64.rpm; rm -f jdk-$JDK_VERSION-linux-x64.rpm;

　　RUN curl -LO ":54321/jdk-8u11-linux-x64.rpm" && rpm -i jdk-$JDK_VERSION-linux-x64.rpm; rm -f jdk-$JDK_VERSION-linux-x64.rpm;

　　ENV JAVA_HOME /usr/java/default

　　RUN yum remove curl; yum clean all

　　WORKDIR spark

　　RUN \

　　curl -LO 'http://192.168.199.102:54321/spark-2.1.0-bin-hadoop2.7.tgz' && \

　　tar zxf spark-2.1.0-bin-hadoop2.7.tgz

　　RUN rm -rf spark-2.1.0-bin-hadoop2.7.tgz

　　RUN mv spark-2.1.0-bin-hadoop2.7/* http://www.jsgho.com/help/fwq/

　　ENV SPARK_HOME /spark

　　ENV PATH /spark/bin:$PATH

　　ENV PATH /spark/sbin:$PATH

　　3、编写master Dockerfile

　　FROM ravenzz/spark-hadoop

　　MAINTAINER RavenZZ

　　COPY master.sh /

　　ENV SPARK_MASTER_PORT 7077

　　ENV SPARK_MASTER_WEBUI_PORT 8080

　　ENV SPARK_MASTER_LOG /spark/logs

　　EXPOSE 8080 7077 6066

　　CMD ["/bin/bash","/master.sh"]

　　4、编写worker Dockerfile

　　FROM ravenzz/spark-hadoop

　　MAINTAINER RavenZZ

　　COPY worker.sh /

　　ENV SPARK_WORKER_WEBUI_PORT 8081

　　ENV SPARK_WORKER_LOG /spark/logs

　　ENV SPARK_MASTER "spark://spark-master:32769"

　　EXPOSE 8081

　　CMD ["/bin/bash","/worker.sh"]

　　5、docker-compose

　　version: '3'

　　services:

　　spark-master:

　　build:

　　context: http://www.jsgho.com/help/fwq/master

　　dockerfile: Dockerfile

　　ports:

　　- "50001:6066"

　　- "50002:7077" # SPARK_MASTER_PORT

　　- "50003:8080" # SPARK_MASTER_WEBUI_PORT

　　expose:

　　- 7077

　　spark-worker1:

　　build:

　　context: http://www.jsgho.com/help/fwq/worker

　　dockerfile: Dockerfile

　　ports:

　　- "50004:8081"

　　links:

　　- spark-master

　　environment:

　　- SPARK_MASTER=spark://spark-master:7077

　　spark-worker2:

　　build:

　　context: http://www.jsgho.com/help/fwq/worker

　　dockerfile: Dockerfile

　　ports:

　　- "50005:8081"

　　links:

　　- spark-master

　　environment:

　　- SPARK_MASTER=spark://spark-master:7077

　　6、测试集群

　　docker-compose up

　　访问:50003/ 结果如图

如何使用docker快速搭建Spark集群

　　参考链接

　　本例源代码https://github.com/RavenZZ/docker-spark-cluster

内容来源：https://www.16jixie.com/news/show-3375.html

下一篇： 赢家经验分享乾坤互娱可以内部合作吗【好看视频】
上一篇： 今天蚂蚁庄园答案是什么蚂蚁庄园答案9月4日汇总

[ 产品搜索 ] [ 加入收藏 ] [ 告诉好友 ] [ 打印本文 ] [ 违规举报 ] [ 关闭窗口 ]

• 乌鲁木齐周边自驾游(乌鲁木齐周边自驾游玩)	• 乌镇旅游攻略景点必去(济南旅游攻略必去景点)
• 乌镇一日游最佳路线图(长岛一日游最佳路线图)	• 乌兰察布十大旅游景点(内蒙古乌兰察布市旅游景
• 义乌到杭州的火车时刻表(义乌到杭州的火车时刻	• 丽江旅游地图及景点(丽江旅游地图高清版大图)
• 丽江5日游(丽江5日游大概费用多少)	• 丹巴美人谷(丹巴美人谷门票)
• 临安浙西大峡谷(千岛湖一日游)	• 中山国旅旅游团报价(欧洲旅游团报价国旅)