资讯专栏INFORMATION COLUMN

spark sql基本内容

IT那活儿 / 2282人阅读
spark sql基本内容


点击上方“IT那活儿”,关注后了解更多内容,不管IT什么活儿,干就完了!!!



01


简   介


Spark SQL是spark中处理结构化数据的模块,区别于RDD接口,Spark SQL接口提供了更多关于数据结构和执行计算的信息,Spark SQL使用这些额外的信息进行额外的优化,Spark SQL有两种交互方式,SQL和DataSet API方式,但是这两种方式使用的相同的执行引擎。

Spark SQL可以从Hive中读取数据,也可以通过编程语言与Spark SQL交互,这将返回DataSet/DataFrame数据集,也可以通过命令行或JDBC/ODBC与Spark SQL进行交互。

DataSet是分布式数据集,是Spark 1.6版本新增接口,其支持java、scala语言。DataFrame相当于关系型数据库的表,其支持的数据源有结构化文件、配置单元中的表、外部数据库或RDD,其支持java、scala、python和R语言。


02


使用步骤

Spark功能入口是sparkSession,创建sparkSession:


03


支持的数据源

3.1 文件

3.2 hive表

spark支持对hive的读写,但是需要增加hive依赖,自spark2.0.0版本以后,可以使用spark.sql.warehouse.dir来配置默认数据仓库的位置。

方法如下:

3.3 关系型数据库

spark也可以方便的与关系型数据库进行集成,可以对关系型数据库进行读写,由于关系型数据库都是结构化数据库,使用spark sql也可方便的进行分析。

下面以mysql为例进行说明:

1)首先需要添加驱动依赖:

2)读取数据

3)写入数据

创建user实体


04


总   结


Spark SQL可以很方便的读取结构化数据,不仅支持文件的读写操作,还支持数据库的读写,而且还支持多种语言,例如常用的java、scala、python、R语言,在实际工作中我们可以使用Spark SQL对结构化数据进行清洗装载等工作。
en

end




本文作者:潘宗昊

本文来源:IT那活儿(上海新炬王翦团队)

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/129643.html

相关文章

  • 大数据入门指南(GitHub开源项目)

    摘要:项目地址前言大数据技术栈思维导图大数据常用软件安装指南一分布式文件存储系统分布式计算框架集群资源管理器单机伪集群环境搭建集群环境搭建常用命令的使用基于搭建高可用集群二简介及核心概念环境下的安装部署和命令行的基本使用常用操作分区表和分桶表视图 项目GitHub地址:https://github.com/heibaiying... 前 言 大数据技术栈思维导图 大数据常用软件安装指...

    guyan0319 评论0 收藏0
  • Spark 』1. spark 简介

    摘要:原文链接简介写在前面本系列是综合了自己在学习过程中的理解记录对参考文章中的一些理解个人实践过程中的一些心得而来。其次,本系列是基于目前最新的系列开始的,目前的更新速度很快,记录一下版本好还是必要的。 原文链接:『 Spark 』1. spark 简介 写在前面 本系列是综合了自己在学习spark过程中的理解记录 + 对参考文章中的一些理解 + 个人实践spark过程中的一些心得而来。写...

    G9YH 评论0 收藏0
  • 大数据时代数据库-云HBase架构&生态&实践

    摘要:摘要第九届中国数据库技术大会,阿里云高级技术专家架构师封神曹龙带来题为大数据时代数据库云架构生态实践的演讲。主要内容有三个方面首先介绍了业务挑战带来的架构演进,其次分析了及生态,最后分享了大数据数据库的实际案例。数据备份及恢复。 摘要: 2018第九届中国数据库技术大会,阿里云高级技术专家、架构师封神(曹龙)带来题为大数据时代数据库-云HBase架构&生态&实践的演讲。主要内容有三个方...

    econi 评论0 收藏0

发表评论

0条评论

IT那活儿

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<