6.3 Impala介绍

本文主要是介绍6.3 Impala介绍，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

 https://www.cloudera.com/products/open-source/apache-hadoop/impala.html 

 http://www.impala.io/index.html 

 Cloudera公司推出，提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。 

基于Hive使用内存计算，兼顾数据仓库、具有实时、批处理、多并发等优点 

是CDH平台首选的PB级大数据实时查询分析引擎 

Impala特点： 

1、基于内存进行计算，能够对PB级数据进行交互式实时查询、分析 

2、无需转换为MR，直接读取HDFS数据 

3、C++编写，LLVM统一编译运行 

4、兼容HiveSQL 

5、具有数据仓库的特性， 可对hive数据直接做数据分析 

6、支持Data Local 

7、支持列式存储 

8、支持JDBC/ODBC远程访问 

缺点： 

1、对内存依赖大 

2、C++编写 开源？！ 

3、完全依赖于hive 

4、实践过程中 分区超过1w 性能严重下下降 

5、稳定性不如hive 

 impala shell(外部命令): 

-h（--help）帮助 impala shell -h 

-v（--version）查询版本信息 

-V（--verbose）启用详细输出 

--quiet 关闭详细输出 

-p 显示执行计划 

-i hostname（--impalad=hostname） 指定连接主机 格式hostname：port 默认端口21000 

impala shell -i node2 

-r（--refresh_after_connect）刷新所有元数据 

-q query（--query=query）从命令行执行查询，不进入impala-shell 

impala shell -q select * from tb1 

-d default_db（--database=default_db）指定数据库 

-B（--delimited）去格式化输出 

• --output_delimiter=character 指定分隔符 

• --print_header 打印列名 

-f query_file（--query_file=query_file）执行查询文件，以分号分隔 

-o filename（--output_file filename）结果输出到指定文件 

impala shell -f /usr/123.txt -o result.txt 

-c 查询执行失败时继续执行 

-k（--kerberos） 使用kerberos安全加密方式运行impala-shell 

-l 启用LDAP认证 

-u 启用LDAP时，指定用户名 

impala shell内部命令： 

直接impala shell 进入impala 

help 

connect 连接主机，默认端口21000 

refresh 增量刷新元数据库 

invalidate metadata 全量刷新元数据库 

explain 显示查询执行计划、步骤信息 

• set explain_level 设置显示级别（0,1,2,3） 

shell 不 退出impala-shell执行Linux命令 

profile （查询完成后执行） 查询最近一次查询的底层信息 

impala不支持复杂的数据类型，例如：MAP，Array,struct 

impala只支持：AVG,COUNT,MAX,MIN,SUM 这几个函数 

创建数据库： 

create database db1; 

use db1; 

删除数据库： 

use default； 

drop database db1； 

创建表(内部表)： 

create table t_person1( 

id int, 

name string 

）

指定存储方式： 

create table t_person2( 

id int, 

name string 

)

row format delimited 

fields terminated by ‘\0’ (impala1.3.1版本以上支持‘\0’ ) 

stored as textfile; 

使用现有表结构： 

create table tab_3 like tab_1; 

插入数据： 

直接插入值方式： 

• insert into t_person values (1,hex(‘hello world’)); 

– 从其他表插入数据： 

• insert (overwrite) into tab_3 select * form tab_2 ; 

– 批量导入文件方式方式： 

• load data local inpath ‘/xxx/xxx’ into table tab_1; 

创建表(外部表) 

– 默认方式创建表： 

• create external table tab_p1( 

• id int, 

• name string 

• ) 

• location ‘/user/xxx.txt’ 

– 指定存储方式： 

• create external table tab_p2 like parquet_tab 

• ‘/user/xxx/xxx/1.dat’ 

• partition (year int , month tinyint, day tinyint) 

• location ‘/user/xxx/xxx’ 

• stored as parquet; 

视图 

– 创建视图： 

• create view v1 as select count(id) as total from tab_3 ; 

– 查询视图： 

• select * from v1; 

– 查看视图定义： 

• describe formatted v1 

• 注意： 

– 1）不能向impala的视图进行插入操作 

– 2）insert 表可以来自视图 

数据文件处理 

– 加载数据： 

• 1、insert语句：插入数据时每条数据产生一个数据文件，不建议用此方式 

加载批量数据 

• 2、load data方式：在进行批量插入时使用这种方式比较合适 

• 3、来自中间表：此种方式使用于从一个小文件较多的大表中读取文件并写 

入新的表生产少量的数据文件。也可以通过此种方式进行格式转换。 

– 空值处理： 

• impala将“\n”表示为NULL，在结合sqoop使用是注意做相应的空字段 

过滤， 

• 也可以使用以下方式进行处理： 

• alter table name set tblproperties 

(“serialization.null.format”=“null”) 

这篇关于6.3 Impala介绍的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！