Hadoop发行版本比较与选型

本文主要是介绍Hadoop发行版本比较与选型，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Apache hadoop：Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据Google公司发表的MapReduce和Google档案系统的论文自行实作而成。称为社区版Hadoop。

第三方发行版Hadoop：Hadoop遵从Apache开源协议，用户可以免费地任意使用和修改Hadoop，也正因此，市面上出现了很多Hadoop版本。其中有很多厂家在Apache Hadoop的基础上开发自己的Hadoop产品，比如Cloudera的CDH，Hortonworks的HDP，MapR的MapR产品等。

Apache社区版本

优点：

1. 完全开源免费。
2. 社区活跃
3. 文档、资料详实

缺点：

1. 复杂的版本管理。版本管理比较混乱的，各种版本层出不穷，让很多使用者不知所措。
2. 复杂的集群部署、安装、配置。通常按照集群需要编写大量的配置文件，分发到每一台节点上，容易出错，效率低下。
3. 复杂的集群运维。对集群的监控，运维，需要安装第三方的其他软件，如ganglia，nagois等，运维难度较大。
4. 复杂的生态环境。在Hadoop生态圈中，组件的选择、使用，比如Hive，Mahout，Sqoop，Flume，Spark，Oozie等等，需要大量考虑兼容性的问题，版本是否兼容，组件是否有冲突，编译是否能通过等。经常会浪费大量的时间去编译组件，解决版本冲突问题。

第三方发行版本（如CDH，HDP，MapR等）

优点：

1. 基于Apache协议，100%开源。
2. 版本管理清晰。比如Cloudera，CDH1，CDH2，CDH3，CDH4，CDH5 等，后面加上补丁版本，如CDH4.1.0 patch level 923.142，表示在原生态Apache Hadoop 0.20.2基础上添加了1065个patch。
3. 比Apache Hadoop在兼容性、安全性、稳定性上有增强。第三方发行版通常都经过了大量的测试验证，有众多部署实例，大量的运行到各种生产环境。
4. 版本更新快。通常情况，比如CDH每个季度会有一个update，每一年会有一个release。
5. 基于稳定版本Apache Hadoop，并应用了最新Bug修复或Feature的patch
6. 提供了部署、安装、配置工具，大大提高了集群部署的效率，可以在几个小时内部署好集群。
7. 运维简单。提供了管理、监控、诊断、配置修改的工具，管理配置方便，定位问题快速、准确，使运维工作简单，有效。

1、排名前十的Hadoop提供商

我们可以看到，在通过“Views”,“Comparisons”,“Reviews”，“Followers”，“Average Rating”的综合比较后，CDH具有较高的可选择性。所有的数据是通过 IT Central Station research 网站进行综合计算的，这是一个超过127,030专业用户的技术测评网站，且所有测评经过了第三方的验证。

2、各Hadoop发行版本比较

通过比较，我们看到，排名前十的Hadoop发行版中，只有CDH、HDP、Apache、MapR是开源的软件，其他都是闭源软件，暂时不参与讨论。MapR由于在分布存储上不采用HDFS,而是重写了HDFS，所以，暂时也不讨论它。那么，我们只进行第三方商业发行版CDH、HDP之间的比较。

2.1、CDH

最成型的发行版本，拥有最多的部署案例。提供强大的部署、管理和监控工具。Cloudera开发并贡献了可实时处理大数据的Impala项目。拥有强大的社区支持，当出现一个问题时，能够通过社区、论坛等网络资源快速获取解决方法。

- 费用
- 宝贵的特点

Cloudera Manager 是提供易用性、特性、易于升级和安装组件等最有价值的功能。CM也可以在几分钟之内建立集群主节点的高可用性（high availability）。其他功能，例如，Hive，Pig，Impala，Flume和Spark也是极具价值的。

- 改善公司现状

改进了存储和分析工具的可用性，如Hive，Pig，Impala和Spark的使用。

- 改善之处

Impala的不断改进。（Impala 是基于HDFS的SQL工具，cloudera开发，现开源。）

Impala为Hadoop上的 BI /分析查询提供低延迟和高并发性（不由批处理框架（如Apache Hive）提供）。 Impala也可以线性扩展，即使在多租户环境中也是如此。利用与Hadoop部署相同的文件和数据格式以及元数据，安全性和资源管理框架 - 无需冗余基础架构或数据转换/复制。对于Apache Hive用户，Impala使用相同的元数据和ODBC驱动程序。像Hive一样，Impala支持SQL，所以你不必担心重新创建、重复造轮子。

- 关于部署
  对于实验和生产集群，从一开始就使用Cloudera Manager。 RPM安装有利于学习。

2.2、HDP

不拥有任何私有（非开源）修改地使用了100%开源Apache Hadoop的唯一提供商。Hortonworks是第一家使用了Apache HCatalog的元数据服务特性的提供商。并且，它们的Stinger开创性地极大地优化了Hive项目。Hortonworks为入门提供了一个非常好的，易于使用的沙盒。Hortonworks开发了很多增强特性并提交至核心主干，这使得Apache Hadoop能够在包括Windows Server和Windows Azure在内的Microsft Windows平台上本地运行,相比于CDH只能运行在Linux系统中。

费用

2、各Hadoop发行版本比较

2.1、CDH

- 费用
- 宝贵的特点

- 改善公司现状

改进了存储和分析工具的可用性，如Hive，Pig，Impala和Spark的使用。

- 改善之处

Impala的不断改进。（Impala 是基于HDFS的SQL工具，cloudera开发，现开源。）

- 关于部署
  对于实验和生产集群，从一开始就使用Cloudera Manager。 RPM安装有利于学习。

2.2、HDP

费用

2、各Hadoop发行版本比较

2.1、CDH

- 费用
- 宝贵的特点

- 改善公司现状

改进了存储和分析工具的可用性，如Hive，Pig，Impala和Spark的使用。

- 改善之处

Impala的不断改进。（Impala 是基于HDFS的SQL工具，cloudera开发，现开源。）

- 关于部署
  对于实验和生产集群，从一开始就使用Cloudera Manager。 RPM安装有利于学习。

2.2、HDP

费用

2、各Hadoop发行版本比较

2.1、CDH

- 费用
- 宝贵的特点

- 改善公司现状

改进了存储和分析工具的可用性，如Hive，Pig，Impala和Spark的使用。

- 改善之处

Impala的不断改进。（Impala 是基于HDFS的SQL工具，cloudera开发，现开源。）

- 关于部署
  对于实验和生产集群，从一开始就使用Cloudera Manager。 RPM安装有利于学习。

2.2、HDP

费用

Cloudera Distribution for Hadoop 与 Hortonworks的比较

以及 IT Central Station research 的调查报告请下载该英文 PDF。（文件已上传CSDN）

附链接：

PDF文件：

1. Hadoop 2017-07-08 report hadoop选型

2. CDH vs HDP 2017-07-04 report

http://download.csdn.net/download/u011594486/9946974

http://download.csdn.net/download/u011594486/9946968

这篇关于Hadoop发行版本比较与选型的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

Hadoop发行版本比较与选型

1. Hadoop 2017-07-08 report hadoop选型

2. CDH vs HDP 2017-07-04 report

相关文章

Linux卸载自带jdk并安装新jdk版本的图文教程

Tomcat版本与Java版本的关系及说明

IDEA中Git版本回退的两种实现方案

JDK多版本共存并自由切换的操作指南(本文为JDK8和JDK17)

nvm如何切换与管理node版本

Mybatis从3.4.0版本到3.5.7版本的迭代方法实现

pytorch+torchvision+python版本对应及环境安装

springboot3.4和mybatis plus的版本问题的解决

mac安装nvm(node.js)多版本管理实践步骤

C#比较两个List集合内容是否相同的几种方法