Hadoop发行版本比较与选型

2024-06-12 19:08

本文主要是介绍Hadoop发行版本比较与选型,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Apache hadoopApache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据Google公司发表的MapReduce和Google档案系统的论文自行实作而成。称为社区版Hadoop。

 

第三方发行版Hadoop:Hadoop遵从Apache开源协议,用户可以免费地任意使用和修改Hadoop,也正因此,市面上出现了很多Hadoop版本。其中有很多厂家在Apache Hadoop的基础上开发自己的Hadoop产品,比如Cloudera的CDH,Hortonworks的HDP,MapR的MapR产品等。


Apache社区版本

  • 优点:
    1. 完全开源免费。
    2. 社区活跃
    3. 文档、资料详实
  • 缺点:
    1. 复杂的版本管理。版本管理比较混乱的,各种版本层出不穷,让很多使用者不知所措。
    2. 复杂的集群部署、安装、配置。通常按照集群需要编写大量的配置文件,分发到每一台节点上,容易出错,效率低下。
    3. 复杂的集群运维。对集群的监控,运维,需要安装第三方的其他软件,如ganglia,nagois等,运维难度较大。
    4. 复杂的生态环境。在Hadoop生态圈中,组件的选择、使用,比如Hive,Mahout,Sqoop,Flume,Spark,Oozie等等,需要大量考虑兼容性的问题,版本是否兼容,组件是否有冲突,编译是否能通过等。经常会浪费大量的时间去编译组件,解决版本冲突问题。

 

第三方发行版本(如CDH,HDP,MapR等)

  • 优点:
    1. 基于Apache协议,100%开源。
    2. 版本管理清晰。比如Cloudera,CDH1,CDH2,CDH3,CDH4,CDH5 等,后面加上补丁版本,如CDH4.1.0 patch level 923.142,表示在原生态Apache Hadoop 0.20.2基础上添加了1065个patch。
    3. 比Apache Hadoop在兼容性、安全性、稳定性上有增强。第三方发行版通常都经过了大量的测试验证,有众多部署实例,大量的运行到各种生产环境。
    4. 版本更新快。通常情况,比如CDH每个季度会有一个update,每一年会有一个release。
    5. 基于稳定版本Apache Hadoop,并应用了最新Bug修复或Feature的patch
    6. 提供了部署、安装、配置工具,大大提高了集群部署的效率,可以在几个小时内部署好集群。
    7. 运维简单。提供了管理、监控、诊断、配置修改的工具,管理配置方便,定位问题快速、准确,使运维工作简单,有效。





1、排名前十的Hadoop提供商

我们可以看到,在通过“Views”,“Comparisons”,“Reviews”,“Followers”,“Average Rating”的综合比较后,CDH具有较高的可选择性。所有的数据是通过 IT Central Station research 网站进行综合计算的,这是一个超过127,030专业用户的技术测评网站,且所有测评经过了第三方的验证。



2、各Hadoop发行版本比较

 通过比较,我们看到,排名前十的Hadoop发行版中,只有CDH、HDP、Apache、MapR是开源的软件,其他都是闭源软件,暂时不参与讨论。MapR由于在分布存储上不采用HDFS,而是重写了HDFS,所以,暂时也不讨论它。那么,我们只进行第三方商业发行版CDH、HDP之间的比较。

2.1、CDH

最成型的发行版本,拥有最多的部署案例。提供强大的部署、管理和监控工具。Cloudera开发并贡献了可实时处大数据Impala项目。拥有强大的社区支持,当出现一个问题时,能够通过社区、论坛等网络资源快速获取解决方法。

    • 费用

    • 宝贵的特点

Cloudera Manager 是 提供易用性、特性、易于升级和安装组件等最有价值的功能。CM也可以在几分钟之内建立集群主节点的高可用性(high availability)。其他功能,例如,Hive,Pig,Impala,Flume和Spark也是极具价值的。

    • 改善公司现状

改进了存储和分析工具的可用性,如Hive,Pig,Impala和Spark的使用。

    • 改善之处

Impala的不断改进。(Impala 是基于HDFS的SQL工具,cloudera开发,现开源。)

 Impala为Hadoop上的 BI /分析查询 提供低延迟和高并发性(不由批处理框架(如Apache Hive)提供)。 Impala也可以线性扩展,即使在多租户环境中也是如此。利用与Hadoop部署相同的文件和数据格式以及元数据,安全性和资源管理框架 - 无需冗余基础架构或数据转换/复制。对于Apache Hive用户,Impala使用相同的元数据和ODBC驱动程序。 像Hive一样,Impala支持SQL,所以你不必担心重新创建、重复造轮子。

    • 关于部署
      对于实验和生产集群,从一开始就使用Cloudera Manager。 RPM安装有利于学习。


2.2、HDP

      不拥有任何私有(非开源)修改地使用了100%开源Apache Hadoop的唯一提供商。Hortonworks是第一家使用了Apache HCatalog的元数据服务特性的提供商。并且,它们的Stinger开创性地极大地优化了Hive项目。Hortonworks为入门提供了一个非常好的,易于使用的沙盒。Hortonworks开发了很多增强特性并提交至核心主干,这使得Apache Hadoop能够在包括Windows ServerWindows Azure在内的Microsft Windows平台上本地运行,相比于CDH只能运行在Linux系统中。

  • 费用



2、各Hadoop发行版本比较

 通过比较,我们看到,排名前十的Hadoop发行版中,只有CDH、HDP、Apache、MapR是开源的软件,其他都是闭源软件,暂时不参与讨论。MapR由于在分布存储上不采用HDFS,而是重写了HDFS,所以,暂时也不讨论它。那么,我们只进行第三方商业发行版CDH、HDP之间的比较。

2.1、CDH

最成型的发行版本,拥有最多的部署案例。提供强大的部署、管理和监控工具。Cloudera开发并贡献了可实时处大数据Impala项目。拥有强大的社区支持,当出现一个问题时,能够通过社区、论坛等网络资源快速获取解决方法。

    • 费用

    • 宝贵的特点

Cloudera Manager 是 提供易用性、特性、易于升级和安装组件等最有价值的功能。CM也可以在几分钟之内建立集群主节点的高可用性(high availability)。其他功能,例如,Hive,Pig,Impala,Flume和Spark也是极具价值的。

    • 改善公司现状

改进了存储和分析工具的可用性,如Hive,Pig,Impala和Spark的使用。

    • 改善之处

Impala的不断改进。(Impala 是基于HDFS的SQL工具,cloudera开发,现开源。)

 Impala为Hadoop上的 BI /分析查询 提供低延迟和高并发性(不由批处理框架(如Apache Hive)提供)。 Impala也可以线性扩展,即使在多租户环境中也是如此。利用与Hadoop部署相同的文件和数据格式以及元数据,安全性和资源管理框架 - 无需冗余基础架构或数据转换/复制。对于Apache Hive用户,Impala使用相同的元数据和ODBC驱动程序。 像Hive一样,Impala支持SQL,所以你不必担心重新创建、重复造轮子。

    • 关于部署
      对于实验和生产集群,从一开始就使用Cloudera Manager。 RPM安装有利于学习。


2.2、HDP

      不拥有任何私有(非开源)修改地使用了100%开源Apache Hadoop的唯一提供商。Hortonworks是第一家使用了Apache HCatalog的元数据服务特性的提供商。并且,它们的Stinger开创性地极大地优化了Hive项目。Hortonworks为入门提供了一个非常好的,易于使用的沙盒。Hortonworks开发了很多增强特性并提交至核心主干,这使得Apache Hadoop能够在包括Windows ServerWindows Azure在内的Microsft Windows平台上本地运行,相比于CDH只能运行在Linux系统中。

  • 费用

2、各Hadoop发行版本比较

 通过比较,我们看到,排名前十的Hadoop发行版中,只有CDH、HDP、Apache、MapR是开源的软件,其他都是闭源软件,暂时不参与讨论。MapR由于在分布存储上不采用HDFS,而是重写了HDFS,所以,暂时也不讨论它。那么,我们只进行第三方商业发行版CDH、HDP之间的比较。

2.1、CDH

最成型的发行版本,拥有最多的部署案例。提供强大的部署、管理和监控工具。Cloudera开发并贡献了可实时处大数据Impala项目。拥有强大的社区支持,当出现一个问题时,能够通过社区、论坛等网络资源快速获取解决方法。

    • 费用

    • 宝贵的特点

Cloudera Manager 是 提供易用性、特性、易于升级和安装组件等最有价值的功能。CM也可以在几分钟之内建立集群主节点的高可用性(high availability)。其他功能,例如,Hive,Pig,Impala,Flume和Spark也是极具价值的。

    • 改善公司现状

改进了存储和分析工具的可用性,如Hive,Pig,Impala和Spark的使用。

    • 改善之处

Impala的不断改进。(Impala 是基于HDFS的SQL工具,cloudera开发,现开源。)

 Impala为Hadoop上的 BI /分析查询 提供低延迟和高并发性(不由批处理框架(如Apache Hive)提供)。 Impala也可以线性扩展,即使在多租户环境中也是如此。利用与Hadoop部署相同的文件和数据格式以及元数据,安全性和资源管理框架 - 无需冗余基础架构或数据转换/复制。对于Apache Hive用户,Impala使用相同的元数据和ODBC驱动程序。 像Hive一样,Impala支持SQL,所以你不必担心重新创建、重复造轮子。

    • 关于部署
      对于实验和生产集群,从一开始就使用Cloudera Manager。 RPM安装有利于学习。


2.2、HDP

      不拥有任何私有(非开源)修改地使用了100%开源Apache Hadoop的唯一提供商。Hortonworks是第一家使用了Apache HCatalog的元数据服务特性的提供商。并且,它们的Stinger开创性地极大地优化了Hive项目。Hortonworks为入门提供了一个非常好的,易于使用的沙盒。Hortonworks开发了很多增强特性并提交至核心主干,这使得Apache Hadoop能够在包括Windows ServerWindows Azure在内的Microsft Windows平台上本地运行,相比于CDH只能运行在Linux系统中。

  • 费用

2、各Hadoop发行版本比较

 通过比较,我们看到,排名前十的Hadoop发行版中,只有CDH、HDP、Apache、MapR是开源的软件,其他都是闭源软件,暂时不参与讨论。MapR由于在分布存储上不采用HDFS,而是重写了HDFS,所以,暂时也不讨论它。那么,我们只进行第三方商业发行版CDH、HDP之间的比较。

2.1、CDH

最成型的发行版本,拥有最多的部署案例。提供强大的部署、管理和监控工具。Cloudera开发并贡献了可实时处大数据Impala项目。拥有强大的社区支持,当出现一个问题时,能够通过社区、论坛等网络资源快速获取解决方法。

    • 费用

    • 宝贵的特点

Cloudera Manager 是 提供易用性、特性、易于升级和安装组件等最有价值的功能。CM也可以在几分钟之内建立集群主节点的高可用性(high availability)。其他功能,例如,Hive,Pig,Impala,Flume和Spark也是极具价值的。

    • 改善公司现状

改进了存储和分析工具的可用性,如Hive,Pig,Impala和Spark的使用。

    • 改善之处

Impala的不断改进。(Impala 是基于HDFS的SQL工具,cloudera开发,现开源。)

 Impala为Hadoop上的 BI /分析查询 提供低延迟和高并发性(不由批处理框架(如Apache Hive)提供)。 Impala也可以线性扩展,即使在多租户环境中也是如此。利用与Hadoop部署相同的文件和数据格式以及元数据,安全性和资源管理框架 - 无需冗余基础架构或数据转换/复制。对于Apache Hive用户,Impala使用相同的元数据和ODBC驱动程序。 像Hive一样,Impala支持SQL,所以你不必担心重新创建、重复造轮子。

    • 关于部署
      对于实验和生产集群,从一开始就使用Cloudera Manager。 RPM安装有利于学习。


2.2、HDP

      不拥有任何私有(非开源)修改地使用了100%开源Apache Hadoop的唯一提供商。Hortonworks是第一家使用了Apache HCatalog的元数据服务特性的提供商。并且,它们的Stinger开创性地极大地优化了Hive项目。Hortonworks为入门提供了一个非常好的,易于使用的沙盒。Hortonworks开发了很多增强特性并提交至核心主干,这使得Apache Hadoop能够在包括Windows ServerWindows Azure在内的Microsft Windows平台上本地运行,相比于CDH只能运行在Linux系统中。

  • 费用
Cloudera Distribution for Hadoop 与 Hortonworks的比较

以及 IT Central Station research 的调查报告  请下载该英文 PDF。(文件已上传CSDN) 

附链接: 
PDF文件:

1. Hadoop 2017-07-08 report hadoop选型

2. CDH vs HDP 2017-07-04 report



http://download.csdn.net/download/u011594486/9946974
http://download.csdn.net/download/u011594486/9946968

这篇关于Hadoop发行版本比较与选型的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1055082

相关文章

百度/小米/滴滴/京东,中台架构比较

小米中台建设实践 01 小米的三大中台建设:业务+数据+技术 业务中台--从业务说起 在中台建设中,需要规范化的服务接口、一致整合化的数据、容器化的技术组件以及弹性的基础设施。并结合业务情况,判定是否真的需要中台。 小米参考了业界优秀的案例包括移动中台、数据中台、业务中台、技术中台等,再结合其业务发展历程及业务现状,整理了中台架构的核心方法论,一是企业如何共享服务,二是如何为业务提供便利。

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

hadoop开启回收站配置

开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。 开启回收站功能参数说明 (1)默认值fs.trash.interval = 0,0表示禁用回收站;其他值表示设置文件的存活时间。 (2)默认值fs.trash.checkpoint.interval = 0,检查回收站的间隔时间。如果该值为0,则该值设置和fs.trash.interval的参数值相等。

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

Android实现任意版本设置默认的锁屏壁纸和桌面壁纸(两张壁纸可不一致)

客户有些需求需要设置默认壁纸和锁屏壁纸  在默认情况下 这两个壁纸是相同的  如果需要默认的锁屏壁纸和桌面壁纸不一样 需要额外修改 Android13实现 替换默认桌面壁纸: 将图片文件替换frameworks/base/core/res/res/drawable-nodpi/default_wallpaper.*  (注意不能是bmp格式) 替换默认锁屏壁纸: 将图片资源放入vendo

关键字synchronized、volatile的比较

关键字volatile是线程同步的轻量级实现,所以volatile性能肯定比synchronized要好,并且volatile只能修饰于变量,而synchronized可以修饰方法,以及代码块。随着JDK新版本的发布,synchronized关键字的执行效率上得到很大提升,在开发中使用synchronized关键字的比率还是比较大的。多线程访问volatile不会发生阻塞,而synchronize

PostgreSQL中的多版本并发控制(MVCC)深入解析

引言 PostgreSQL作为一款强大的开源关系数据库管理系统,以其高性能、高可靠性和丰富的功能特性而广受欢迎。在并发控制方面,PostgreSQL采用了多版本并发控制(MVCC)机制,该机制为数据库提供了高效的数据访问和更新能力,同时保证了数据的一致性和隔离性。本文将深入解析PostgreSQL中的MVCC功能,探讨其工作原理、使用场景,并通过具体SQL示例来展示其在实际应用中的表现。 一、

InnoDB的多版本一致性读的实现

InnoDB是支持MVCC多版本一致性读的,因此和其他实现了MVCC的系统如Oracle,PostgreSQL一样,读不会阻塞写,写也不会阻塞读。虽然同样是MVCC,各家的实现是不太一样的。Oracle通过在block头部的事务列表,和记录中的锁标志位,加上回滚段,个人认为实现上是最优雅的方式。 而PostgreSQL则更是将多个版本的数据都放在表中,而没有单独的回滚段,导致的一个结果是回滚非

JeecgBoot 升级springboot版本到2.6.0

1. 环境描述 Jeecgboot 3.0,他所依赖的springboot版本为2.3.5Release,将springboot版本升级为2.6.0。过程全纪录,从2开始描述。 2. 修改springboot版本号 <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-pare