首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
streamtable专题
Hive join优化(mapjoin,streamtable)
一、 Join语法 Hive支持的join语法: join_table:table_reference [INNER] JOIN table_factor [join_condition]| table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition| table_reference LEFT SE
阅读更多...
streamtable关键字
join一般都是在reduce阶段完成的,因为在map阶段无法使同样key值的分在一个map上。 而在reduce阶段的join,hive默认把左表数据放在缓存中,右边表的数据做流数据。 如果你想更改这种模式的话,就用/*+streamtable(表名)*/来指定你想要做为流数据的表。 最好每次写join时,小表放左边,大表放右边。 试过几十万的表和1亿的表,在hive不转为map join的情况
阅读更多...