资讯专栏INFORMATION COLUMN

Spark 学习笔记

zhoutk / 2387人阅读

摘要:安装从官网下载最新版本的发布。安装完成后可以使用来测试是否安装成功。在解压后的目录使用第一个程序是分析日志,中的。代码如下中的所有转换都是惰性的,只有发生一个要求返回结果给的动作时,这些转换才会被执行。资源官网知乎精华答案编程指南版

安装

从官网下载最新版本的发布。目前是1.1.0

安装Java和JDK。安装完成后可以使用java -version来测试是否安装成功。

在spark解压后的目录使用./sbt/sbt --assembly

Hello World
第一个程序是分析Nginx日志,中的http response code。代码如下:

from pyspark import SparkContext

logFile = "20141010.log"

sc = SparkContext("local", "Hello Spark")
logData = sc.textFile(logFile).cache()

counts = logData.map(lambda line: line.split()[8]).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)

counts.saveAsTextFile("spark_results")

Debug Shell

./spark-1.1.0/bin/pyspark

Submit File

./bin/spark-submit  --master local[4]   SimpleApp.py

Notes

Spark中的所有转换都是惰性的,只有发生一个要求返回结果给Driver的动作时,这些转换才会被执行。

资源
Spark官网
CSDN Spark
知乎精华答案
Spark编程指南(Python)版

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/39089.html

相关文章

  • Spark学习笔记之相关记录

    摘要:编程指南例子集群模式与如何部署集群模式提交部署应用如何监控算子如何配置,有哪些配置选项配置大全提示默认端口端口调优 编程指南:http://spark.apache.org/docs/... ApiDoc: http://spark.apache.org/docs/... 0、例子 http://spark.apache.org/examp... 1、集群模式与如何部署? 集...

    daydream 评论0 收藏0
  • Spark综合学习笔记(三)搜狗搜索日志分析

    摘要:学习致谢一数据数据网站二需求针对用户查询日志数据中不同字段,使用读取日志数据,封装到数据集中,调用函数和函数进行处理不同业务统计分析三分词工具测试使用比较流行好用的中文分区面向生产环境的自然语言处理工具包,是由一系列模 ...

    AZmake 评论0 收藏0

发表评论

0条评论

zhoutk

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<