帮酷LOGO
  • 显示原文与译文双语对照的内容
文章标签:spark  spa  图像  DOCK  Apache  Docker  DOC  Apache Spark  
Docker Container for Apache Spark in Stand-Alone mode

  • 源代码名称:docker-spark
  • 源代码网址:http://www.github.com/epahomov/docker-spark
  • docker-spark源代码文档
  • docker-spark源代码下载
  • Git URL:
    git://www.github.com/epahomov/docker-spark.git
  • Git Clone代码到本地:
    git clone http://www.github.com/epahomov/docker-spark
  • Subversion代码到本地:
    $ svn co --depth empty http://www.github.com/epahomov/docker-spark
    Checked out revision 1.
    $ cd repo
    $ svn up trunk
  • 客户端 Docker 映像

    DockerPullsDockerStars

    这个存储库包含一个运行Docker 映像。

    要运行简单的spark shell 插件,请执行以下操作:

    docker run -it epahomov/docker-spark:lightweighted/spark/bin/spark-shell

    要运行简单 python spark shell ( 被称为 pyspark ):

    docker run -it epahomov/docker-spark:lightweighted/spark/bin/pyspark

    使用这里图像的lightweighted版本之前的示例。 它非常小,所以下载速度很快,但它不是很灵活。 所有下一个例子都是默认版本

    要运行简单的spark R shell 插件,请执行以下操作:

    docker run -it epahomov/docker-spark/spark/bin/sparkR

    要运行简单的spark sql shell,请执行以下操作:

    docker run -it epahomov/docker-spark/spark/bin/spark-sql

    若要运行简单的spark shell,如下面的一些更改属性,请执行以下操作:

    docker run -it epahomov/docker-spark/spark/bin/spark-shell --master local[4]

    要使用更改的spark-defaults.conf 运行简单的spark shell,请执行以下操作:

    printf"spark.master local[4] nspark.executor.cores 4"> spark-defaults.conf
    sudo docker run -v $(pwd)/spark-defaults.conf:/spark/conf/spark-defaults.conf -it epahomov/docker-spark/spark/bin/spark-shell

    第三行将conf写入文件 spark-default 。conf,第二行从主机文件系统到容器中的文件系统,并将它的放入conf目录中。

    若要使用spark用户界面,请添加"-p 4040: 4040"参数:

    docker run -ti -p 4040:4040 epahomov/docker-spark/spark/bin/spark-shell

    要运行一些 python 脚本,请执行以下操作:

    echo"import pysparknprint(pyspark.SparkContext().parallelize(range(0, 10)).count())"> count.py
    docker run -it -p 4040:4040 -v $(pwd)/count.py:/count.py epahomov/docker-spark/spark/bin/spark-submit/count.py

    Hadoop

    通过这个映像,你可以从spark连接到Hadoop集群。 你所需要的是指定HADOOP_CONF_DIR并通过hadoop配置作为卷传递目录

    docker run -v $(pwd)/hadoop:/etc/hadoop/conf -e"HADOOP_CONF_DIR=/etc/hadoop/conf" --net=host -it epahomov/docker-spark/spark/bin/spark-shell --master yarn-client

    版本

    这里容器存在于下一个版本中:

    • spark_2.0_hadoop_2.7
    • spark_2.0_hadoop_2.6
    • spark_2.1_hadoop_2.7
    • spark_2.1_hadoop_2.6
    • lightweighted - 这里图像的lightweighted版本。 它基于 alpine linux和下载的二进制文件,而不是由所有可能的plags ( 像 -Pyarn ) 源。
    • 旧 spark - 设置spark集群的旧功能。 不支持,不建议使用。

    主控形状 spark_2.1_hadoop_2.7

    飞艇

    这个图像是 Apache图像的基础图像。



    文章标签:图像  DOC  Docker  DOCK  spa  Apache  spark  Apache Spark  

    Copyright © 2011 HelpLib All rights reserved.    知识分享协议 京ICP备05059198号-3  |  如果智培  |  酷兔英语