本文主要是介绍hive内连接和左半链接不一致的问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
一、理论HIVE中都是按等值连接来统计的,理论上两种写法统计结果应该是一致的;
二、实际情况
但实际使用中发现两种写法会返回的结果,总会有一些差距虽然差别不大,但让人很是困惑。
三、原因
当使用join on的时候,如果右表有重复数据就会关联更多的数据,因为它们都符合join on上的条件;
而使用left semi join的时候,当join左侧表中的记录在join右侧表上查询到符合条件的记录就会返回,而不会再继续查找右侧表中剩余记录了,所以即使右侧表中有重复,也不会对统计结果有啥影响。
这篇关于hive内连接和左半链接不一致的问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!