Apache HAWQ ——功能强大的SQL-on-Hadoop引擎

2024-03-18 18:38

本文主要是介绍Apache HAWQ ——功能强大的SQL-on-Hadoop引擎,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Pivotal中国研发中心研发总监,HAWQ并行Hadoop SQL引擎创始人,Pivotal HAWQ团队负责人,曾任EMC高级研究员。专注于大数据与云计算领域,在国内外顶级数据管理期刊和会议发表数篇论文,并拥有多项美国专利。

分享主要分为以下五个部分:

  1. HAWQ基本介绍;
  2. HAWQ架构以及各重要组件的基本原理;
  3. HAWQ的中短期规划;
  4. 如何贡献到HAWQ和成为Apache Committer;
  5. Q & A。

 

一、HAWQ基本介绍


HAWQ是一个Hadoop原生大规模并行SQL分析引擎,针对的是分析性应用。和其他关系型数据库类似,接受SQL,返回结果集。但它具有大规模并行处理很多传统数据库以及其他数据库没有的特性及功能。主要如下:

  1. 对标准的完善支持:ANSI SQL标准,OLAP扩展,标准JDBC/ODBC支持,比其他Hadoop SQL引擎都要完善。
  2. 具有MPP(大规模并行处理系统)的性能,比其他Hadoop里面的SQL引擎快数倍。
  3. 具有非常成熟的并行优化器。优化器是并行SQL引擎的重要组成部分,对性能影响很多,尤其是对复杂查询。
  4. 支持ACID事务特性:这是很多现有基于Hadoop的SQL引擎做不到的,对保证数据一致性很重要。
  5. 动态数据流引擎:基于UDP的高速互联网络。
  6. 弹性执行引擎:可以根据查询大小来决定执行查询使用的节点及Segment个数。
  7. 支持多种分区方法及多级分区:比如List分区和Range分区。分区表对性能有很大帮助,比如你只想访问最近一个月的数据,查询只需要扫描最近一个月数据所在分区。
  8. 支持多种压缩方法:snappy,gzip,quicklz,RLE等。
  9. 多种UDF(用户自定义函数)语言支持:java, python, c/c++, perl, R等。
  10. 动态扩容:动态按需扩容,按照存储大小或者计算需求,秒级添加节点。
  11. 多级资源或负载管理:和外部资源管理器YARN集成;可以管理CPU,Memory资源等;支持多级资源队列;方便的DDL管理接口。
  12. 支持访问任何HDFS及其他系统的数据:各种HDFS格式(文本,SequenceFile,Avro,Parquet等等)以及其他外部系统(HBase等),并且用户自己可以开发插件来访问新的数据源。
  13. 原生的机器学习数据挖掘库MADLib支持:易于使用及高性能。
  14. 与Hadoop系统无缝集成:存储、资源、安装部署(Ambari)、数据格式、访问等。
  15. 完善的安全及权限管理:kerberos;数据库,表等各个级别的授权管理。
  16. 支持多种第三方工具:比如Tableau,SAS,较新的Apache Zeppelin等。
  17. 支持对HDFS和YARN的快速访问库:libhdfs3和libyarn(其他项目也可以使用)。
  18. 支持在本地、虚拟化环境或者在云端部署。

下面我来谈一下HAWQ是原生Hadoop SQL引擎中“原生”的意思,“原生”主要体现在如下几个方面:

  1. 数据都存储在HDFS上,不需要使用connector模式。
  2. 高可扩展性:和其他Hadoop组件一样,高可扩展。并且具有高性能。
  3. 原生的代码存取:和其他Hadoop项目一样。HAWQ是Apache项目。用户可以自由的下载,使用和做贡献。区别与其他的伪开源软件。
  4. 透明性:用Apache的方式开发软件。所有功能的开发及讨论都是公开的。用户可以自由参与。
  5. 原生的管理:可以通过Ambari部署、资源可以从YARN分配,与其它Hadoop组件可以运行在同一个集群。

HAWQ提供的主要好处:

  • HAWQ与同类开源和闭源产品比较,如图1:

Apache HAWQ

(图1)

  • HAWQ与同类开源和闭源产品比较,如图2:

Apache HAWQ

(图2)

HAWQ的历史和现状:

  1. 想法和原型系统 (2011):GOH阶段(Greenplum Database On HDFS)。
  2. HAWQ 1.0 Alpha (2012): 多个国外大型客户试用,当时客户性能测试是Hive的数百倍。促进了HAWQ 1.0作为正式产品发布。
  3. HAWQ 1.0 GA (2013年初): 改变了传统MPP数据库架构,包括事务,容错,元数据管等。
  4. HAWQ 1.X版本 (2014-2015 Q2):增加了一些企业级需要的功能,比如Parquet存储,新的优化器,Kerberos,Ambari安装部署。客户覆盖全球。
  5. HAWQ 2.0 Alpha发布并成为Apache孵化器项目:针对云环境的系统架构重新设计,数十个高级功能,包括弹性执行引擎,高级资源管理,YARN集成,秒级扩容等等。现在大家在Apache开源的是最新的2.0 Alpha版本。未来的开发都在Apache进行。

二、Apache HAWQ系统架构


下面我来介绍一下HAWQ的系统架构。图3给出了一个典型的HAWQ集群的主要组件。其中有几个Master节点:包括HAWQ master节点,HDFS master节点NameNode,YARN master节点ResourceManager。现在HAWQ元数据服务在HAWQ master节点里面,将来的版本会成为单独的服务。其他节点为Slave节点。每个Slave节点上部署有HDFS DataNode,YARN NodeManager以及一个HAWQ Segment。HAWQ Segment在执行查询的时候会启动多个QE (Query Executor, 查询执行器)。查询执行器运行在资源容器里面。

Apache HAWQ

(图3)

图4是HAWQ内部架构图:

Apache HAWQ

(图4)

可以看到在HAWQ master节点内部有如下几个重要组件:查询解析器(Parser/Analyzer),优化器,资源管理器,资源代理,HDFS元数据缓存,容错服务,查询派遣器,元数据服务。在Slave节点上安装有一个物理Segment,在查询执行时,针对一个查询,弹性执行引擎会启动多个虚拟Segment同时执行查询,节点间数据交换通过Interconnect(高速互联网络)进行。如果一个查询启动了1000个虚拟Segment,意思是这个查询被均匀的分成了1000份任务,这些任务会并行执行。所以说虚拟Segment数其实表明了查询的并行度。查询的并行度是由弹性执行引擎根据查询大小以及当前资源使用情况动态确定的。下面我逐个来解释这些组件的作用以及它们之间的关系:

  1. 查询解析器:负责解析查询,并检查语法及语义。最终生成查询树传递给优化器。
  2. 优化器:负责接受查询树,生成查询计划。针对一个查询,可能有数亿个可能的等价的查询计划,但执行性能差别很大。优化器的作用是找出优化的查询计划。
  3. 资源管理器:资源管理器通过资源代理向全局资源管理器(比如YARN)动态申请资源。并缓存资源。在不需要的时候返回资源。我们缓存资源的主要原因是减少HAWQ与全局资源管理器之间的交互代价。HAWQ支持毫秒级查询。如果每一个小的查询都去向资源管理器申请资源,这样的话,性能会受到影响。资源管理器同时需要保证查询不使用超过分配给该查询的资源,否则查询之间会相互影响,可能导致系统整体不可用。
  4. HDFS元数据缓存:用于HAWQ确定哪些Segment扫描表的哪些部分。HAWQ是把计算派遣到数据所在的地方。所以我们需要匹配计算和数据的局部性。这些需要HDFS块的位置信息。位置信息存储在HDFS NameNode上。每个查询都访问HDFS NameNode会造成NameNode的瓶颈。所以我们在HAWQ Master节点上建立了HDFS元数据缓存。
  5. 容错服务:负责检测哪些节点可用,哪些节点不可用。不可用的机器会被排除出资源池。
  6. 查询派遣器:优化器优化完查询以后,查询派遣器派遣计划到各个节点上执行,并协调查询执行的整个过程。查询派遣器是整个并行系统的粘合剂。
  7. 元数据服务:负责存储HAWQ的各种元数据,包括数据库和表信息,以及访问权限信息等。另外,元数据服务也是实现分布式事务的关键。
  8. 高速互联网络:负责在节点之间传输数据。软件实现,基于UDP。

查询执行


了解清楚各个组件之后,我们来看一下一个查询的主要流程(请参见图5)。

Apache HAWQ

(图5)

用户通过JDBC/ODBC提交查询之后,查询解析器得到查询树,然后优化器根据查询树生成查询计划,派遣器和资源管理器打交道得到资源,分解查询计划,然后派遣计划到Segment的执行器上面执行。最终结果会传回给用户。

下面我来简单看一下并行查询计划长什么样。图6给出了一个具体的例子。

Apache HAWQ

(图6)

这个查询包含一个连接,一个表达式和一个聚集。图中有两个查询计划。简单来看,并行查询计划和串行查询计划最不同的是多了一些Motion操作符。Motion负责在节点之间交换数据。底层是通过高速互联网络实现的。我们可以看到这里有三种Motion:

  1. Redistribution Motion: 负责按照hash键值重新分布数据
  2. Broadcast Motion: 负责广播数据
  3. Gather Motion: 负责搜集数据到一起。

左边的查询计划表示了如果表lineitem和orders都使用了连接键进行分布的情况。在这个例子中,lineitem按照l_orderkey进行hash分布,orders表按照o_orderkey进行分布。这样的话两个表做连接的时候是不需要进行重新分布的。右边的查询计划表示了一个需要重新分布数据的例子。该查询计划和左边的查询计划相比多了一个Motion节点。

弹性执行引擎


弹性执行引擎有几个关键设计点:存储和计算的完全分离,无状态Segment以及如何使用资源。存储和计算的分离使得我们可以动态的启动任意多个虚拟Segment来执行查询。无状态Segment使得集群更容易扩展。要想保证大规模集群的状态一致性是比较困难的问题,所以我们采用了无状态的Segment。如何使用资源包括如何根据查询的代价申请多少资源,并且如何有效的使用这些资源,比如如何使得数据局部性最优。HAWQ内部针对每一个部分都进行了非常优化的设计。

元数据服务


元数据服务位于HAWQ Master节点。主要向其他组件提供元数据的存储及查询服务。对外的接口为CaQL(元数据查询语言, Catalog Query Language)。CaQL支持的语言是SQL的一个子集,包括单表选择,计数,多行删除,单行插入更新等。把CaQL设计为SQL语言的一个子集的原因是,在未来我们希望把元数据从主节点分离出去,作为一个单独的服务,支持一个简单的子集作为元数据服务来说已经够用了,并且容易扩展。

高速互联网络


高速互联网络的作用是在多个节点之间交换大量数据。HAWQ高速互联网络基于UDP协议。大家可能会问为什么我们不使用TCP。其实我们同时支持TCP和UDP两种协议。TCP协议早于UDP协议。就是因为我们遇到了TCP不能很好解决的问题,我们才开发了基于UDP的协议。图7展示了一个高速互联网络的例子。

Apache HAWQ

(图7)

例子中各个节点上的执行器进程形成了一个数据交换的流水线。假设每个节点上有1000个进程。有1000个节点,这些进程需要相互交互,每个节点上就会有上百万个连接。TCP是没办法高效地支持这么多的连接数的。所以我们开发了基于UDP的互联协议。针对UDP传输,操作系统是不能保证可靠性的,并且不能保证是有序传递的。我们的设计目标需要保持以下特性:

  1. 可靠性:能够保证在丢包的情况下,重传丢失的包
  2. 有序性:保证包传递给接受者的最终有序性
  3. 流量控制:如果不控制发送者的速度,接收者可能会被淹没,甚至会导致整个网络性能急剧下降
  4. 性能和可扩展性:性能和可扩展性是我们需要解决TCP问题的初衷
  5. 可支持多种平台

Apache HAWQ

(图8)

图8展现了我们实现UDP高速互联网络的状态机。并且设计时还需要考虑死锁的消除。详细信息可以参考参考文献。

事务管理


事务是数据管理系统一个非常重要的属性。大部分Hadoop里面的SQL引擎不支持事务。让程序员自己保证事务和数据的一致性,基本上是非常困难的事。

HAWQ支持事务的所有ACID属性,支持Snapshot Isolation。事务发生由Master节点协调和控制。采用的是一种泳道模型。比如并发的插入各个查询使用各自的泳道,互不冲突。在事务提交的时候通过记录文件逻辑长度的方式来保证一致性。如果事务失败的时候,需要回滚,删除文件末尾的垃圾数据。起初HDFS是不支持truncate的,现在HDFS刚支持的truncate功能是根据HAWQ的需求做出的。

资源管理器


HAWQ支持三级资源管理:

  1. 全局资源管理:可以集成YARN,和其他系统共享集群资源。未来会支持Mesos等
  2. HAWQ内部资源管理:可以支持查询,用户等级别的资源管理
  3. 操作符级别资源管理:可以针对操作符分配和强制资源使用

现在HAWQ支持多极资源队列。可以通过DDL方便的定义和修改资源队列定义。下面是HAWQ资源管理器的主要架构图:

Apache HAWQ

(图9)

资源管理器中的各个组件作用如下:

  1. 请求处理器:接收查询派遣器进程的资源请求
  2. 资源分配器:负责资源的分配
  3. 资源池:保存所有资源的现有状态
  4. 策略存储:保存所有的分配策略,将来会做到策略可定制。
  5. 资源代理:负责与全局资源管理器交互

存储模块


HAWQ支持多种内部优化的存储格式,比如AO和Parquet。提供MapReduce InputFormat,可以供外部系统直接访问。其他各种存储格式通过扩展框架访问。针对用户专有格式,用户可以自己开发插件。同时支持各种压缩,多极分区等各种功能。

MADLib


Apache HAWQ

(图10)

如上图所示。MADLib是一个非常完善的并行机器学习和数据挖掘库。支持多种各种机器学习和统计分析方法。HAWQ原生支持MADLib。现在MADLib是一个独立的Apache项目,基本包含了所有常用的机器学习方法。

三、HAWQ中短期规划


HAWQ团队短期内专注于2.0GA。长期来看我们会做以下几个方面的工作:

  1. 跨数据中心的灾难恢复
  2. 分布式索引支持
  3. 快照支持
  4. 与更多其他生态系统进行集成
  5. 对新硬件的支持进一步提高性能:GPU等

四、贡献到Apache HAWQ社区


HAWQ是一个Apache开源项目,希望得到更多社区的人能够参与进来。来自社区的贡献不局限于贡献代码,也可以贡献测试,文档,提Bug JIRA,提供功能需求等等。现在国内对Apache开源社区的贡献还不是很多,希望大家能够一块推动国内开源社区的发展。

对Apache项目做贡献方式的比较简单,在我们的Apache JIRA系统中(https://issues.apache.org/jira/browse/HAWQ)开一个JIRA。然后给出你的解决方法。如果是代码的话,可以使用github提交一个Pull Request。具具体步骤可以参见我们在Apache wiki网站上的流程(https://cwiki.apache.org/confluence/display/HAWQ),在提交代码以后,HAWQ committer会和你一起合作把代码提交。如果你有足够多的贡献的话,并且也想成为Apache Committer,HAWQ PMC会有有一个投票过程表决,保证公平与公正。

所有功能的开发讨论都发布在JIRA和邮件列表中。下面是Apache HAWQ主要网址以及大家可以订阅的邮件列表:

  1. Website: http://hawq.incubator.apache.org/
  2. Wiki: https://cwiki.apache.org/confluence/display/HAWQ
  3. Repo: https://github.com/apache/incubator-hawq.git
  4. JIRA: https://issues.apache.org/jira/browse/HAWQ
  5. Mailing lists: dev@hawq.incubator.apache.org 和 user@hawq.incubator.apache.org 订阅方法: 发送邮件到 dev-subscribe@hawq.incubator.apache.org 和 user-subscribe@hawq.incubator.apache.org

我们在国内有一个“大数据社区”会组织meetup讨论HAWQ以及其他生态系统的最新进展。网址为:http://www.meetup.com/Big-Data-Community-China/“大数据社区”博客:http://blog.csdn.net/bigdatacommunity (具有更多HAWQ及大数据相关技术文章)

这篇关于Apache HAWQ ——功能强大的SQL-on-Hadoop引擎的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/823271

相关文章

SQL中的外键约束

外键约束用于表示两张表中的指标连接关系。外键约束的作用主要有以下三点: 1.确保子表中的某个字段(外键)只能引用父表中的有效记录2.主表中的列被删除时,子表中的关联列也会被删除3.主表中的列更新时,子表中的关联元素也会被更新 子表中的元素指向主表 以下是一个外键约束的实例展示

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

如何去写一手好SQL

MySQL性能 最大数据量 抛开数据量和并发数,谈性能都是耍流氓。MySQL没有限制单表最大记录数,它取决于操作系统对文件大小的限制。 《阿里巴巴Java开发手册》提出单表行数超过500万行或者单表容量超过2GB,才推荐分库分表。性能由综合因素决定,抛开业务复杂度,影响程度依次是硬件配置、MySQL配置、数据表设计、索引优化。500万这个值仅供参考,并非铁律。 博主曾经操作过超过4亿行数据

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

hadoop开启回收站配置

开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。 开启回收站功能参数说明 (1)默认值fs.trash.interval = 0,0表示禁用回收站;其他值表示设置文件的存活时间。 (2)默认值fs.trash.checkpoint.interval = 0,检查回收站的间隔时间。如果该值为0,则该值设置和fs.trash.interval的参数值相等。

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

MySQL数据库宕机,启动不起来,教你一招搞定!

作者介绍:老苏,10余年DBA工作运维经验,擅长Oracle、MySQL、PG、Mongodb数据库运维(如安装迁移,性能优化、故障应急处理等)公众号:老苏畅谈运维欢迎关注本人公众号,更多精彩与您分享。 MySQL数据库宕机,数据页损坏问题,启动不起来,该如何排查和解决,本文将为你说明具体的排查过程。 查看MySQL error日志 查看 MySQL error日志,排查哪个表(表空间

MySQL高性能优化规范

前言:      笔者最近上班途中突然想丰富下自己的数据库优化技能。于是在查阅了多篇文章后,总结出了这篇! 数据库命令规范 所有数据库对象名称必须使用小写字母并用下划线分割 所有数据库对象名称禁止使用mysql保留关键字(如果表名中包含关键字查询时,需要将其用单引号括起来) 数据库对象的命名要能做到见名识意,并且最后不要超过32个字符 临时库表必须以tmp_为前缀并以日期为后缀,备份