资讯专栏INFORMATION COLUMN

使用PyCharm配置Spark的Python开发环境(基础)

madthumb / 2265人阅读

摘要:在本地搭建好后,除了使用提交程序外,我们可以使用这个在本地进行开发调试提升我们的开发效率。配置过程也十分简单,在上搜索到的。同时,加入插件后也可以使用开发程序,配置步骤一致。安装步骤安装配置打开,创建一个。

在本地搭建好Spark 1.6.0后,除了使用spark-submit提交Python程序外,我们可以使用PyCharm这个IDE在本地进行开发调试,提升我们的开发效率。配置过程也十分简单,在stackoverflow上搜索到的。同时,IntelliJ IDEA加入Python插件后也可以使用Python开发Spark程序,配置步骤一致。

我的博客原文地址链接:http://blog.tomgou.xyz/shi-yong-pycharmpei-zhi-sparkde-pythonkai-fa-huan-jing.html

0.安装PyCharm和py4j

我的系统环境(Ubuntu 14.04.4 LTS)

下载安装最新版本的PyCharm,官网地址:https://www.jetbrains.com/pycharm/download/ 。

安装步骤:

Unpack the pycharm-5.0.4.tar.gz using the following command: tar xfz pycharm-5.0.4.tar.gz

Run pycharm.sh from the bin subdirectory

安装py4j:

$ sudo pip install py4j

1.配置Pycharm

打开PyCharm,创建一个Project。
然后选择“Run” ->“Edit Configurations” ->“Environment variables”

增加SPARK_HOME目录与PYTHONPATH目录。

SPARK_HOME:Spark安装目录

PYTHONPATH:Spark安装目录下的Python目录


2.测试Pycharm

运行一个小的Spark程序看看:

"""SimpleApp"""

from pyspark import SparkContext

logFile = "/home/tom/spark-1.6.0/README.md"
sc = SparkContext("local","Simple App")
logData = sc.textFile(logFile).cache()

numAs = logData.filter(lambda s: "a" in s).count()
numBs = logData.filter(lambda s: "b" in s).count()

print("Lines with a: %i, lines with b: %i"%(numAs, numBs))

运行结果:

Lines with a: 58, lines with b: 26

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/37777.html

相关文章

  • 如何在pycharm配置Spark

    摘要:因为作业要用到这个和就着手开始配置,但是搜了一圈还是发现了不少雷。如右上角所示,选择。设置环境,创建和配置路径如图所示,都可以在安装路径下找到选择你的右上角添加和的路径这两个文件都在中的文件夹下,自己找一下保存, 因为作业要用到这个SPARK和python, 就着手开始配置,但是搜了一圈还是发现了不少雷。就把我自己的解决办法发上来: 打开pycharm,导入已有的或者新建工程。2.创建...

    Bmob 评论0 收藏0
  • 工欲善其事必先利其器:用什么写Python

    摘要:然而,每个人对编辑器的喜好各不相同,甚至引发出诸如神的编辑器与编辑器之神这种信仰之争。我们用来写的工具有两类一种是被称为的集成开发环境,它们为开发而生。但仅我上述提及的几个其实也足够用了。正如标题所说工欲善其事,必先利其器。 通常来说,每个程序员都有自己趁手的兵器: 代码编辑器 。你要是让他换个开发环境,恐怕开发效率至少下降三成。然而,每个人对编辑器的喜好各不相同,甚至引发出诸如神的编...

    Brenner 评论0 收藏0
  • 使用Docker开发Django项目

    摘要:背景当多个项目且某些包无法兼容时,通常我们使用虚拟环境即可解决。但事实上不仅仅只能用于线上应用部署,我们的开发调试环境也可以使用。 背景 当多个Python项目且某些包无法兼容时,通常我们使用虚拟环境即可解决。 但是在团队中多个环境其实相对比较固定了,较少变更,如果换电脑或者新人加入需要重新一个一个配置虚拟环境并安装相应的包,会耗费很多时间,而且由于重新安装的包依赖可能会有版本变更导致...

    MASAILA 评论0 收藏0
  • 使用Docker开发Django项目

    摘要:背景当多个项目且某些包无法兼容时,通常我们使用虚拟环境即可解决。但事实上不仅仅只能用于线上应用部署,我们的开发调试环境也可以使用。 背景 当多个Python项目且某些包无法兼容时,通常我们使用虚拟环境即可解决。 但是在团队中多个环境其实相对比较固定了,较少变更,如果换电脑或者新人加入需要重新一个一个配置虚拟环境并安装相应的包,会耗费很多时间,而且由于重新安装的包依赖可能会有版本变更导致...

    lentoo 评论0 收藏0
  • Python开发工具之Pycharm最新安装教程

    摘要:开发工具之最新安装教程可以说是一款进行开发功能强大的编辑器。鉴于近期很少有关最新版本的安装教程,为了能够帮助刚刚学习的朋友们。另外一个是社区版可以进行纯的开发,免费试用无需付费。 Python开发工具之Pycharm最新安装教程 Pycharm可以说是一款进行Python开发功能强大的编辑器...

    klinson 评论0 收藏0

发表评论

0条评论

madthumb

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<