spark sql基本内容

IT那活儿发布于2023-01-11 13:20 / 2311人阅读

spark sql基本内容

点击上方“IT那活儿”，关注后了解更多内容，不管IT什么活儿，干就完了！！！

01

简介

Spark SQL是spark中处理结构化数据的模块，区别于RDD接口，Spark SQL接口提供了更多关于数据结构和执行计算的信息，Spark SQL使用这些额外的信息进行额外的优化，Spark SQL有两种交互方式，SQL和DataSet API方式，但是这两种方式使用的相同的执行引擎。

Spark SQL可以从Hive中读取数据，也可以通过编程语言与Spark SQL交互，这将返回DataSet/DataFrame数据集，也可以通过命令行或JDBC/ODBC与Spark SQL进行交互。

DataSet是分布式数据集，是Spark 1.6版本新增接口，其支持java、scala语言。DataFrame相当于关系型数据库的表，其支持的数据源有结构化文件、配置单元中的表、外部数据库或RDD，其支持java、scala、python和R语言。

02

使用步骤

Spark功能入口是sparkSession，创建sparkSession：

03

支持的数据源

3.1 文件

3.2 hive表

spark支持对hive的读写，但是需要增加hive依赖，自spark2.0.0版本以后，可以使用spark.sql.warehouse.dir来配置默认数据仓库的位置。

方法如下：

3.3 关系型数据库

spark也可以方便的与关系型数据库进行集成，可以对关系型数据库进行读写，由于关系型数据库都是结构化数据库，使用spark sql也可方便的进行分析。

下面以mysql为例进行说明：

1）首先需要添加驱动依赖：

2）读取数据

3）写入数据

创建user实体

04

总结

Spark SQL可以很方便的读取结构化数据，不仅支持文件的读写操作，还支持数据库的读写，而且还支持多种语言，例如常用的java、scala、python、R语言，在实际工作中我们可以使用Spark SQL对结构化数据进行清洗装载等工作。

end

本文作者：潘宗昊

本文来源：IT那活儿（上海新炬王翦团队）

云服务器 GPU云服务器大数据基本内容 spark sql 大数据的基本内容人工智能的基本内容

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/129643.html

大数据入门指南（GitHub开源项目）

摘要：项目地址前言大数据技术栈思维导图大数据常用软件安装指南一分布式文件存储系统分布式计算框架集群资源管理器单机伪集群环境搭建集群环境搭建常用命令的使用基于搭建高可用集群二简介及核心概念环境下的安装部署和命令行的基本使用常用操作分区表和分桶表视图项目GitHub地址：https://github.com/heibaiying... 前言大数据技术栈思维导图大数据常用软件安装指...

guyan0319 2019-08-19 11:46 评论0 收藏0
『 Spark 』1. spark 简介

摘要：原文链接简介写在前面本系列是综合了自己在学习过程中的理解记录对参考文章中的一些理解个人实践过程中的一些心得而来。其次，本系列是基于目前最新的系列开始的，目前的更新速度很快，记录一下版本好还是必要的。原文链接：『 Spark 』1. spark 简介写在前面本系列是综合了自己在学习spark过程中的理解记录＋对参考文章中的一些理解＋个人实践spark过程中的一些心得而来。写...

G9YH 2019-07-31 10:50 评论0 收藏0
大数据时代数据库-云HBase架构&生态&实践

摘要：摘要第九届中国数据库技术大会，阿里云高级技术专家架构师封神曹龙带来题为大数据时代数据库云架构生态实践的演讲。主要内容有三个方面首先介绍了业务挑战带来的架构演进，其次分析了及生态，最后分享了大数据数据库的实际案例。数据备份及恢复。摘要： 2018第九届中国数据库技术大会，阿里云高级技术专家、架构师封神（曹龙）带来题为大数据时代数据库-云HBase架构&生态&实践的演讲。主要内容有三个方...

econi 2019-06-25 18:39 评论0 收藏0

发表评论

登陆后可评论

0条评论

IT那活儿

男|高级讲师

我要关注我要私信

TA的文章

消息中间件故障分析一例

阅读 1434·2023-01-11 13:20
RAC双节点crash回复一例

阅读 1795·2023-01-11 13:20
ORA-600处理一例

阅读 1249·2023-01-11 13:20
双节点RAC实例2 HANG 故障分析一例

阅读 1987·2023-01-11 13:20
RAC集群节点1重启分析一例

阅读 4209·2023-01-11 13:20
CRS启动报错CRS-1656处理分享

阅读 2849·2023-01-11 13:20
oracle 12CR2打补丁报错处理一例

阅读 1468·2023-01-11 13:20
分布式缓存组件故障分析及监控优化

阅读 3765·2023-01-11 13:20

资讯专栏INFORMATION COLUMN

上云采购季！| 2核2G4M爆款云服务器低至59元/年，更有多台、长期优惠，快来选购！

spark sql基本内容

点击上方“IT那活儿”，关注后了解更多内容，不管IT什么活儿，干就完了！！！

01

02

03

3.2 hive表

3.3 关系型数据库

04

本文作者：潘宗昊

本文来源：IT那活儿（上海新炬王翦团队）

相关文章

大数据入门指南（GitHub开源项目）

**『 Spark 』1. spark 简介**

大数据时代数据库-云HBase架构&生态&实践

发表评论

0条评论

IT那活儿

男|高级讲师

TA的文章

消息中间件故障分析一例

RAC双节点crash回复一例

ORA-600处理一例

双节点RAC实例2 HANG 故障分析一例

RAC集群节点1重启分析一例

CRS启动报错CRS-1656处理分享

oracle 12CR2打补丁报错处理一例

分布式缓存组件故障分析及监控优化

最新活动