左半专题

hive内连接和左半链接不一致的问题

一、理论 HIVE中都是按等值连接来统计的,理论上两种写法统计结果应该是一致的; 二、实际情况 但实际使用中发现两种写法会返回的结果,总会有一些差距虽然差别不大,但让人很是困惑。 三、原因 当使用join on的时候,如果右表有重复数据就会关联更多的数据,因为它们都符合join on上的条件; 而使用left semi join的时候,当join左侧表中的记录在