5.3.0Spark_SQL入门

2023-12-17 08:38
文章标签 sql 入门 5.3 database 0spark

本文主要是介绍5.3.0Spark_SQL入门,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Spark_SQL入门

一、 Spark SQL概述

        Spark SQLSpark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。

二、 Spark SQL 作用

       Hive是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所以Spark SQL的应运而生,它是Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快!

三、 Spark SQL特点

        1. 易于整合

 

    整合HiveSql

        2. 统一的数据访问方式

 

            Sql语法相同

        3. 兼容Hive

 

        4. 标准的数据连接

 

        JDBC连接数据库

四、 DataFrame

        1. 定义

   与RDD类似,DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格,除了数据以外,还记录数据的结构信息,即schema。同时,与Hive类似,DataFrame也支持嵌套数据类型(structarraymap。从API易用性的角度上 看,DataFrame API提供的是一套高层的关系操作,比函数式的RDD API要更加友好,门槛更低。由于与RPandasDataFrame类似,Spark DataFrame很好地继承了传统单机数据分析的开发体验。

 

 

        2. 创建DataFrame

    在Spark SQLSQLContext是创建DataFrame和执行SQL的入口。Spark2.0Spark session合并了SQLContextHiveContext。所有使用内置spark创建

 

            1) 在本地创建一个文件,有三列,分别是idnameage,用空格分隔,然后上传到hdfs

 

 

 

 

 

            2) spark shell执行下面命令,读取数据,将每一行的数据使用列分隔符分割

val lineRDD =  sc.textFile("hdfs://master:9000/sparktest/input/sparksqlperson.txt").map(_.split(" "))

            3) 定义case class(相当于表的schema

case class Person(id:Int, name:String, age:Int)

 

            4) RDDcase class关联

val personRDD = lineRDD.map(x => Person(x(0).toInt , x(1), x(2).toInt))

            5) RDD转换成DataFrame

val personDF = personRDD.toDF

            6) DataFrame进行处理

personDF.show

 

        3. DataFrame常用操作

            1) DSL风格语法

//查看DataFrame中的内容
personDF.show

 

//查看DataFrame部分列中的内容
personDF.select(personDF.col("name")).show

 

personDF.select(col("name"), col("age")).show

 

personDF.select("name").show

 

//打印DataFrame的Schema信息
personDF.printSchema

 

//查询所有的name和age,并将age+1
personDF.select(col("id"), col("name"), col("age") + 1).show

 

personDF.select(personDF("id"),personDF("name"), personDF("age") + 1).show

//过滤age大于等于18的
personDF.filter(col("age") >= 18).show


//按年龄进行分组并统计相同年龄的人数
personDF.groupBy("age").count().show()

 

            2) SQL风格语法

     如果想使用SQL风格的语法,需要DataFrame注册成表

personDF.registerTempTable("t_person")

 

            spark2.1.1内置SparkSession 直接用于sql查询

//查询年龄最大的前两名
spark.sql("select * from t_person order by age desc limit 2").show

 

//显示表的Schema信息
spark.sql("desc t_person").show

 

这篇关于5.3.0Spark_SQL入门的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/503764

相关文章

SQL注入漏洞扫描之sqlmap详解

《SQL注入漏洞扫描之sqlmap详解》SQLMap是一款自动执行SQL注入的审计工具,支持多种SQL注入技术,包括布尔型盲注、时间型盲注、报错型注入、联合查询注入和堆叠查询注入... 目录what支持类型how---less-1为例1.检测网站是否存在sql注入漏洞的注入点2.列举可用数据库3.列举数据库

Mysql虚拟列的使用场景

《Mysql虚拟列的使用场景》MySQL虚拟列是一种在查询时动态生成的特殊列,它不占用存储空间,可以提高查询效率和数据处理便利性,本文给大家介绍Mysql虚拟列的相关知识,感兴趣的朋友一起看看吧... 目录1. 介绍mysql虚拟列1.1 定义和作用1.2 虚拟列与普通列的区别2. MySQL虚拟列的类型2

mysql数据库分区的使用

《mysql数据库分区的使用》MySQL分区技术通过将大表分割成多个较小片段,提高查询性能、管理效率和数据存储效率,本文就来介绍一下mysql数据库分区的使用,感兴趣的可以了解一下... 目录【一】分区的基本概念【1】物理存储与逻辑分割【2】查询性能提升【3】数据管理与维护【4】扩展性与并行处理【二】分区的

MySQL中时区参数time_zone解读

《MySQL中时区参数time_zone解读》MySQL时区参数time_zone用于控制系统函数和字段的DEFAULTCURRENT_TIMESTAMP属性,修改时区可能会影响timestamp类型... 目录前言1.时区参数影响2.如何设置3.字段类型选择总结前言mysql 时区参数 time_zon

Python MySQL如何通过Binlog获取变更记录恢复数据

《PythonMySQL如何通过Binlog获取变更记录恢复数据》本文介绍了如何使用Python和pymysqlreplication库通过MySQL的二进制日志(Binlog)获取数据库的变更记录... 目录python mysql通过Binlog获取变更记录恢复数据1.安装pymysqlreplicat

使用SQL语言查询多个Excel表格的操作方法

《使用SQL语言查询多个Excel表格的操作方法》本文介绍了如何使用SQL语言查询多个Excel表格,通过将所有Excel表格放入一个.xlsx文件中,并使用pandas和pandasql库进行读取和... 目录如何用SQL语言查询多个Excel表格如何使用sql查询excel内容1. 简介2. 实现思路3

Mysql DATETIME 毫秒坑的解决

《MysqlDATETIME毫秒坑的解决》本文主要介绍了MysqlDATETIME毫秒坑的解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着... 今天写代码突发一个诡异的 bug,代码逻辑大概如下。1. 新增退款单记录boolean save = s

mysql-8.0.30压缩包版安装和配置MySQL环境过程

《mysql-8.0.30压缩包版安装和配置MySQL环境过程》该文章介绍了如何在Windows系统中下载、安装和配置MySQL数据库,包括下载地址、解压文件、创建和配置my.ini文件、设置环境变量... 目录压缩包安装配置下载配置环境变量下载和初始化总结压缩包安装配置下载下载地址:https://d

MySQL中的锁和MVCC机制解读

《MySQL中的锁和MVCC机制解读》MySQL事务、锁和MVCC机制是确保数据库操作原子性、一致性和隔离性的关键,事务必须遵循ACID原则,锁的类型包括表级锁、行级锁和意向锁,MVCC通过非锁定读和... 目录mysql的锁和MVCC机制事务的概念与ACID特性锁的类型及其工作机制锁的粒度与性能影响多版本

MYSQL行列转置方式

《MYSQL行列转置方式》本文介绍了如何使用MySQL和Navicat进行列转行操作,首先,创建了一个名为`grade`的表,并插入多条数据,然后,通过修改查询SQL语句,使用`CASE`和`IF`函... 目录mysql行列转置开始列转行之前的准备下面开始步入正题总结MYSQL行列转置环境准备:mysq