Hive-2.HiveQL查询中JOIN语句

2023-11-29 04:08
文章标签 查询 join hive 语句 hiveql

本文主要是介绍Hive-2.HiveQL查询中JOIN语句,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Hive支持常用到的SQL JOIN语句,但是只支持等值连接。

4.1 INNER JOIN

内连接(INNER JOIN)中,只有进行连接的两个表中都存在与连接标准相匹配的数据才会展示出来。例如: 查询每个部门下的员工列表

 

查询语句:

select  t.deptname,e.name 

from  employees  e inner join dept t

on e.deptno=t.deptno

 

查询结果:

t.deptname      e.name

bss     wangwu1

bss     wangwu2

pso     wangwu3

pso     wangwu4

4.2 JOIN优化

Hive同时假定查询中的最后一个表示最大的那个表。在对每行记录进行连接操作时候,他们会尝试将其他的表缓存起来,然后扫描最后的那个表进行计算。因此,用户需要保证连接的表的大小从左到有是依次增加的。

 

假定dept是小表,employees是大表,一般的解决方案:

select  t.deptname,e.name 

from dept t  join employees  e

on t.deptno=e.deptno

 

但是,用户并非总是要讲最大的放置在查询语句的最后面。这是因为Hive还提供了一个“标记”机制来显示地告知查询优化器哪张表是最大的表,使用方式如下:

select /*+STREAMTABLE(e1)*/ t.deptname,e1.name

from   employees e1 join dept t on t.deptno=e1.deptno

where e1.country='China';

 

 

除上述join的优化外,也可以通过map-site join进行优化。

4.3 LEFT/RIGHT OUTER JOIN 

left join left outer join的简写,left join默认是outer属性的。

 

通过两种方法分别统计  查询每个部门的员工人员列表 

l 使用left join:左边关联的表全部显示出来

 

select  t.deptname,case when e.name is NULL then '该部门暂无人员' else e.name  end as name 

from dept t left join employees  e

on t.deptno=e.deptno

 

 

输出结果:

t.deptname      name

bss     wangwu1

bss     wangwu2

pso     wangwu3

pso     wangwu4

bdx     该部门暂无人员

 

l 使用right join: 右边的表数据全部显示出来

 

select  t.deptname,case when e.name is NULL then '该部门暂无人员' else e.name  end as name 

from  employees  e right join dept t

on e.deptno=t.deptno;

 

输出结果:

t.deptname      name

bss     wangwu1

bss     wangwu2

pso     wangwu3

pso     wangwu4

bdx     该部门暂无人员

4.5 LEFT SEMI-JOIN

查询所有的员工信息,这些员工的信息所属部门必须在dept

两种方案可以实现:

方案1:通过INNER JOIN

select e.*

from dept t inner join employees  e

on t.deptno=e.deptno

 

 

方案2:通过LEFT SEMI JOIN

select  e.*

from employees e

left semi join  

dept t

on  (

e.deptno=t.deptno

and t.deptno='d001')

 

 

注意: SELECTWHERE语句中不能饮用到右边表中的字段

 

通过两种实现对比,一般情况下LEFT SEMI JOININNER JOIN要更高效,原因如下:对于左表中的一条记录,在右边表中一旦找到匹配的记录,Hive就立即停止扫描。而不是匹配上要再次全表扫描右边的表。需要注意的: 通过这两个方案还有一个区别,就是若右边的表dept存在重复的记录,查询的结果是不一样的,原因就在于在查找dept记录时候存在是否终止的问题。

 

4.6 笛卡尔积JOIN

笛卡尔积是一种连接,表示左表和行数乘以右表的行数就是笛卡尔积的结果。

 

select * from dept t join employees  e;

 

一般情况下,这种没有条件的业务很少存在,但是笛卡尔积在一些情况下是很有用的。例如:

假设: 用户偏好表A,新闻文章B,同时有一个算法推测出用户(A)可能会喜欢读哪些文章(B),这个时候就需要使用笛卡尔积生成用户A和文章B所有网页的对应关系的集合

 

 

4.6 map-site JOIN

如果所有表中只有一张表是小表,那么可以在最大的表通过Mapper的时候将小标完全放倒内存中。Hive可以在map端执行连接过程(称为map-site join)。这样做的优点:

l 小表加入内存,省去常规连接操作所需要的reduce过程

l 同时减少map过程的执行步骤

 

需要注意的是,用户有两种方式使用该功能

(1) 直接通过SQL声明

select /*+mapjoin(t)*/ t.deptname,e1.name

from   employees e1 join dept t on t.deptno=e1.deptno

where e1.country='China';

(2) Hive配置来启用,用户也可以配置能够使用这个优化的小表大小

set hive.auto.convert.join=true;

set hive.mapjoin.smalltable.filesize=250000;

select  t.deptname,e1.name

from   employees e1 join dept t on t.deptno=e1.deptno

where e1.country='China';

这篇关于Hive-2.HiveQL查询中JOIN语句的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/431387

相关文章

从入门到精通MySQL联合查询

《从入门到精通MySQL联合查询》:本文主要介绍从入门到精通MySQL联合查询,本文通过实例代码给大家介绍的非常详细,需要的朋友可以参考下... 目录摘要1. 多表联合查询时mysql内部原理2. 内连接3. 外连接4. 自连接5. 子查询6. 合并查询7. 插入查询结果摘要前面我们学习了数据库设计时要满

MySQL查询JSON数组字段包含特定字符串的方法

《MySQL查询JSON数组字段包含特定字符串的方法》在MySQL数据库中,当某个字段存储的是JSON数组,需要查询数组中包含特定字符串的记录时传统的LIKE语句无法直接使用,下面小编就为大家介绍两种... 目录问题背景解决方案对比1. 精确匹配方案(推荐)2. 模糊匹配方案参数化查询示例使用场景建议性能优

mysql表操作与查询功能详解

《mysql表操作与查询功能详解》本文系统讲解MySQL表操作与查询,涵盖创建、修改、复制表语法,基本查询结构及WHERE、GROUPBY等子句,本文结合实例代码给大家介绍的非常详细,感兴趣的朋友跟随... 目录01.表的操作1.1表操作概览1.2创建表1.3修改表1.4复制表02.基本查询操作2.1 SE

Mysql常见的SQL语句格式及实用技巧

《Mysql常见的SQL语句格式及实用技巧》本文系统梳理MySQL常见SQL语句格式,涵盖数据库与表的创建、删除、修改、查询操作,以及记录增删改查和多表关联等高级查询,同时提供索引优化、事务处理、临时... 目录一、常用语法汇总二、示例1.数据库操作2.表操作3.记录操作 4.高级查询三、实用技巧一、常用语

MySQL数据库的内嵌函数和联合查询实例代码

《MySQL数据库的内嵌函数和联合查询实例代码》联合查询是一种将多个查询结果组合在一起的方法,通常使用UNION、UNIONALL、INTERSECT和EXCEPT关键字,下面:本文主要介绍MyS... 目录一.数据库的内嵌函数1.1聚合函数COUNT([DISTINCT] expr)SUM([DISTIN

XML重复查询一条Sql语句的解决方法

《XML重复查询一条Sql语句的解决方法》文章分析了XML重复查询与日志失效问题,指出因DTO缺少@Data注解导致日志无法格式化、空指针风险及参数穿透,进而引发性能灾难,解决方案为在Controll... 目录一、核心问题:从SQL重复执行到日志失效二、根因剖析:DTO断裂引发的级联故障三、解决方案:修复

mysql查询使用_rowid虚拟列的示例

《mysql查询使用_rowid虚拟列的示例》MySQL中,_rowid是InnoDB虚拟列,用于无主键表的行ID查询,若存在主键或唯一列,则指向其,否则使用隐藏ID(不稳定),推荐使用ROW_NUM... 目录1. 基本查询(适用于没有主键的表)2. 检查表是否支持 _rowid3. 注意事项4. 最佳实

SQL BETWEEN 语句的基本用法详解

《SQLBETWEEN语句的基本用法详解》SQLBETWEEN语句是一个用于在SQL查询中指定查询条件的重要工具,它允许用户指定一个范围,用于筛选符合特定条件的记录,本文将详细介绍BETWEEN语... 目录概述BETWEEN 语句的基本用法BETWEEN 语句的示例示例 1:查询年龄在 20 到 30 岁

SQL中JOIN操作的条件使用总结与实践

《SQL中JOIN操作的条件使用总结与实践》在SQL查询中,JOIN操作是多表关联的核心工具,本文将从原理,场景和最佳实践三个方面总结JOIN条件的使用规则,希望可以帮助开发者精准控制查询逻辑... 目录一、ON与WHERE的本质区别二、场景化条件使用规则三、最佳实践建议1.优先使用ON条件2.WHERE用

MySQL存储过程之循环遍历查询的结果集详解

《MySQL存储过程之循环遍历查询的结果集详解》:本文主要介绍MySQL存储过程之循环遍历查询的结果集,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录前言1. 表结构2. 存储过程3. 关于存储过程的SQL补充总结前言近来碰到这样一个问题:在生产上导入的数据发现