Hive-2.HiveQL查询中JOIN语句

2023-11-29 04:08
文章标签 查询 join hive 语句 hiveql

本文主要是介绍Hive-2.HiveQL查询中JOIN语句,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Hive支持常用到的SQL JOIN语句,但是只支持等值连接。

4.1 INNER JOIN

内连接(INNER JOIN)中,只有进行连接的两个表中都存在与连接标准相匹配的数据才会展示出来。例如: 查询每个部门下的员工列表

 

查询语句:

select  t.deptname,e.name 

from  employees  e inner join dept t

on e.deptno=t.deptno

 

查询结果:

t.deptname      e.name

bss     wangwu1

bss     wangwu2

pso     wangwu3

pso     wangwu4

4.2 JOIN优化

Hive同时假定查询中的最后一个表示最大的那个表。在对每行记录进行连接操作时候,他们会尝试将其他的表缓存起来,然后扫描最后的那个表进行计算。因此,用户需要保证连接的表的大小从左到有是依次增加的。

 

假定dept是小表,employees是大表,一般的解决方案:

select  t.deptname,e.name 

from dept t  join employees  e

on t.deptno=e.deptno

 

但是,用户并非总是要讲最大的放置在查询语句的最后面。这是因为Hive还提供了一个“标记”机制来显示地告知查询优化器哪张表是最大的表,使用方式如下:

select /*+STREAMTABLE(e1)*/ t.deptname,e1.name

from   employees e1 join dept t on t.deptno=e1.deptno

where e1.country='China';

 

 

除上述join的优化外,也可以通过map-site join进行优化。

4.3 LEFT/RIGHT OUTER JOIN 

left join left outer join的简写,left join默认是outer属性的。

 

通过两种方法分别统计  查询每个部门的员工人员列表 

l 使用left join:左边关联的表全部显示出来

 

select  t.deptname,case when e.name is NULL then '该部门暂无人员' else e.name  end as name 

from dept t left join employees  e

on t.deptno=e.deptno

 

 

输出结果:

t.deptname      name

bss     wangwu1

bss     wangwu2

pso     wangwu3

pso     wangwu4

bdx     该部门暂无人员

 

l 使用right join: 右边的表数据全部显示出来

 

select  t.deptname,case when e.name is NULL then '该部门暂无人员' else e.name  end as name 

from  employees  e right join dept t

on e.deptno=t.deptno;

 

输出结果:

t.deptname      name

bss     wangwu1

bss     wangwu2

pso     wangwu3

pso     wangwu4

bdx     该部门暂无人员

4.5 LEFT SEMI-JOIN

查询所有的员工信息,这些员工的信息所属部门必须在dept

两种方案可以实现:

方案1:通过INNER JOIN

select e.*

from dept t inner join employees  e

on t.deptno=e.deptno

 

 

方案2:通过LEFT SEMI JOIN

select  e.*

from employees e

left semi join  

dept t

on  (

e.deptno=t.deptno

and t.deptno='d001')

 

 

注意: SELECTWHERE语句中不能饮用到右边表中的字段

 

通过两种实现对比,一般情况下LEFT SEMI JOININNER JOIN要更高效,原因如下:对于左表中的一条记录,在右边表中一旦找到匹配的记录,Hive就立即停止扫描。而不是匹配上要再次全表扫描右边的表。需要注意的: 通过这两个方案还有一个区别,就是若右边的表dept存在重复的记录,查询的结果是不一样的,原因就在于在查找dept记录时候存在是否终止的问题。

 

4.6 笛卡尔积JOIN

笛卡尔积是一种连接,表示左表和行数乘以右表的行数就是笛卡尔积的结果。

 

select * from dept t join employees  e;

 

一般情况下,这种没有条件的业务很少存在,但是笛卡尔积在一些情况下是很有用的。例如:

假设: 用户偏好表A,新闻文章B,同时有一个算法推测出用户(A)可能会喜欢读哪些文章(B),这个时候就需要使用笛卡尔积生成用户A和文章B所有网页的对应关系的集合

 

 

4.6 map-site JOIN

如果所有表中只有一张表是小表,那么可以在最大的表通过Mapper的时候将小标完全放倒内存中。Hive可以在map端执行连接过程(称为map-site join)。这样做的优点:

l 小表加入内存,省去常规连接操作所需要的reduce过程

l 同时减少map过程的执行步骤

 

需要注意的是,用户有两种方式使用该功能

(1) 直接通过SQL声明

select /*+mapjoin(t)*/ t.deptname,e1.name

from   employees e1 join dept t on t.deptno=e1.deptno

where e1.country='China';

(2) Hive配置来启用,用户也可以配置能够使用这个优化的小表大小

set hive.auto.convert.join=true;

set hive.mapjoin.smalltable.filesize=250000;

select  t.deptname,e1.name

from   employees e1 join dept t on t.deptno=e1.deptno

where e1.country='China';

这篇关于Hive-2.HiveQL查询中JOIN语句的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/431387

相关文章

Mybatis 传参与排序模糊查询功能实现

《Mybatis传参与排序模糊查询功能实现》:本文主要介绍Mybatis传参与排序模糊查询功能实现,本文通过实例代码给大家介绍的非常详细,感兴趣的朋友跟随小编一起看看吧... 目录一、#{ }和${ }传参的区别二、排序三、like查询四、数据库连接池五、mysql 开发企业规范一、#{ }和${ }传参的

MySQL INSERT语句实现当记录不存在时插入的几种方法

《MySQLINSERT语句实现当记录不存在时插入的几种方法》MySQL的INSERT语句是用于向数据库表中插入新记录的关键命令,下面:本文主要介绍MySQLINSERT语句实现当记录不存在时... 目录使用 INSERT IGNORE使用 ON DUPLICATE KEY UPDATE使用 REPLACE

浅谈mysql的sql_mode可能会限制你的查询

《浅谈mysql的sql_mode可能会限制你的查询》本文主要介绍了浅谈mysql的sql_mode可能会限制你的查询,这个问题主要说明的是,我们写的sql查询语句违背了聚合函数groupby的规则... 目录场景:问题描述原因分析:解决方案:第一种:修改后,只有当前生效,若是mysql服务重启,就会失效;

MySQL多列IN查询的实现

《MySQL多列IN查询的实现》多列IN查询是一种强大的筛选工具,它允许通过多字段组合快速过滤数据,本文主要介绍了MySQL多列IN查询的实现,具有一定的参考价值,感兴趣的可以了解一下... 目录一、基础语法:多列 IN 的两种写法1. 直接值列表2. 子查询二、对比传统 OR 的写法三、性能分析与优化1.

java String.join()的使用小结

《javaString.join()的使用小结》String.join()是Java8引入的一个实用方法,用于将多个字符串按照指定分隔符连接成一个字符串,本文主要介绍了javaString.join... 目录1. 方法定义2. 基本用法2.1 拼接多个字符串2.2 拼接集合中的字符串3. 使用场景和示例3

python之流程控制语句match-case详解

《python之流程控制语句match-case详解》:本文主要介绍python之流程控制语句match-case使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录match-case 语法详解与实战一、基础值匹配(类似 switch-case)二、数据结构解构匹

mybatis-plus 实现查询表名动态修改的示例代码

《mybatis-plus实现查询表名动态修改的示例代码》通过MyBatis-Plus实现表名的动态替换,根据配置或入参选择不同的表,本文主要介绍了mybatis-plus实现查询表名动态修改的示... 目录实现数据库初始化依赖包配置读取类设置 myBATis-plus 插件测试通过 mybatis-plu

MySQL中实现多表查询的操作方法(配sql+实操图+案例巩固 通俗易懂版)

《MySQL中实现多表查询的操作方法(配sql+实操图+案例巩固通俗易懂版)》本文主要讲解了MySQL中的多表查询,包括子查询、笛卡尔积、自连接、多表查询的实现方法以及多列子查询等,通过实际例子和操... 目录复合查询1. 回顾查询基本操作group by 分组having1. 显示部门号为10的部门名,员

mysql关联查询速度慢的问题及解决

《mysql关联查询速度慢的问题及解决》:本文主要介绍mysql关联查询速度慢的问题及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mysql关联查询速度慢1. 记录原因1.1 在一次线上的服务中1.2 最终发现2. 解决方案3. 具体操作总结mysql

mysql线上查询之前要性能调优的技巧及示例

《mysql线上查询之前要性能调优的技巧及示例》文章介绍了查询优化的几种方法,包括使用索引、避免不必要的列和行、有效的JOIN策略、子查询和派生表的优化、查询提示和优化器提示等,这些方法可以帮助提高数... 目录避免不必要的列和行使用有效的JOIN策略使用子查询和派生表时要小心使用查询提示和优化器提示其他常