简 介
Spark SQL是spark中处理结构化数据的模块,区别于RDD接口,Spark SQL接口提供了更多关于数据结构和执行计算的信息,Spark SQL使用这些额外的信息进行额外的优化,Spark SQL有两种交互方式,SQL和DataSet API方式,但是这两种方式使用的相同的执行引擎。
Spark SQL可以从Hive中读取数据,也可以通过编程语言与Spark SQL交互,这将返回DataSet/DataFrame数据集,也可以通过命令行或JDBC/ODBC与Spark SQL进行交互。
DataSet是分布式数据集,是Spark 1.6版本新增接口,其支持java、scala语言。DataFrame相当于关系型数据库的表,其支持的数据源有结构化文件、配置单元中的表、外部数据库或RDD,其支持java、scala、python和R语言。
使用步骤
spark支持对hive的读写,但是需要增加hive依赖,自spark2.0.0版本以后,可以使用spark.sql.warehouse.dir来配置默认数据仓库的位置。
方法如下:
spark也可以方便的与关系型数据库进行集成,可以对关系型数据库进行读写,由于关系型数据库都是结构化数据库,使用spark sql也可方便的进行分析。
下面以mysql为例进行说明:
1)首先需要添加驱动依赖:
2)读取数据
3)写入数据
创建user实体
总 结
end
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/129643.html
摘要:项目地址前言大数据技术栈思维导图大数据常用软件安装指南一分布式文件存储系统分布式计算框架集群资源管理器单机伪集群环境搭建集群环境搭建常用命令的使用基于搭建高可用集群二简介及核心概念环境下的安装部署和命令行的基本使用常用操作分区表和分桶表视图 项目GitHub地址:https://github.com/heibaiying... 前 言 大数据技术栈思维导图 大数据常用软件安装指...
摘要:原文链接简介写在前面本系列是综合了自己在学习过程中的理解记录对参考文章中的一些理解个人实践过程中的一些心得而来。其次,本系列是基于目前最新的系列开始的,目前的更新速度很快,记录一下版本好还是必要的。 原文链接:『 Spark 』1. spark 简介 写在前面 本系列是综合了自己在学习spark过程中的理解记录 + 对参考文章中的一些理解 + 个人实践spark过程中的一些心得而来。写...
摘要:摘要第九届中国数据库技术大会,阿里云高级技术专家架构师封神曹龙带来题为大数据时代数据库云架构生态实践的演讲。主要内容有三个方面首先介绍了业务挑战带来的架构演进,其次分析了及生态,最后分享了大数据数据库的实际案例。数据备份及恢复。 摘要: 2018第九届中国数据库技术大会,阿里云高级技术专家、架构师封神(曹龙)带来题为大数据时代数据库-云HBase架构&生态&实践的演讲。主要内容有三个方...
阅读 1250·2023-01-11 13:20
阅读 1559·2023-01-11 13:20
阅读 1013·2023-01-11 13:20
阅读 1680·2023-01-11 13:20
阅读 3972·2023-01-11 13:20
阅读 2520·2023-01-11 13:20
阅读 1356·2023-01-11 13:20
阅读 3486·2023-01-11 13:20