Hadoop生态圈概要

2024-02-26 13:38
文章标签 hadoop 概要 生态圈

本文主要是介绍Hadoop生态圈概要,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

ZooKeeper

  1. ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。
  2. ZooKeeper不仅仅是在Hadoop生态圈中使用,也在其他地方使用,例如阿里的Dubbo。只要是需要分布式应用程序协调服务的地方都可以使用ZooKeeper。

Hadoop 2.X

  1. HDFS负责海量数据的存储。包含NameNode ,SecondaryNameNode,DataNode三个进程。其中NameNode的HA需要依赖于ZooKeeper来实现。SecondaryNameNode节点的主要功能是周期性将元数据节点的命名空间镜像文件和修改日志进行合并,以防日志文件过大,相当于NameNode的助手,而非NameNode的备份。
  2. YARN负责资源调度。YARN也是一个集群,包含ResourceManager,NodeManager两个进程,为MapReduce等应用程序进行资源调度。
  3. MapReduce负责数据分析,主要针对的是离线数据分析。包含Map和Reduce两个过程。Spark 主要是基于内存的分布式实时数据分析。

Hive

  1. Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句(即HIVE QL)快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
  2. Hive是将元数据存储于关系型数据库中,例如Mysql或内嵌的Derby;将真实的数据存储于HDFS中。

HBase

  1. HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
  2. HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来处理Bigtable中的海量数据,HBase同样利用Hadoop MapReduce来处理HBase中的海量数据;Google Bigtable利用 Chubby作为协同服务,HBase利用Zookeeper作为对应。
  3. HBase的分布式部署需要依赖于ZooKeeper。

Flume(数据收集工具)

  1. Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
  2. 当前Flume有两个版本Flume 0.9X版本的统称Flume-og,Flume1.X版本的统称Flume-ng。由于Flume-ng经过重大重构,与Flume-og有很大不同,使用时请注意区分。
  3. 部署的时候只需要依赖于JDK以及部分Hadoop jar包,而不需要有分布式集群。
  4. Flume中有三个模块:
    source – > channel –> sink
    • source负责读取数据
    • channel负责临时存储数据
    • sink负责将数据存储到指定的介质

Sqoop(数据迁移工具)

  1. Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
  2. 使用Sqoop的时候,Sqoop的语法会转换成MapReduce程序。因此Sqoop必须依赖于YARN。但是只需提供HADOOP_HOME路径即可。

这篇关于Hadoop生态圈概要的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/749053

相关文章

计组_计算机概要与设计

2024.06.23~2024.06.27:计算机组成原理学习笔记 CH1 计算机概要与设计 1.1 计算机的分类1.1.1 传统按照应用分类1.1.2 后PC时代1.1.3 存储容量 1.2 八大伟大设计思想1.2.1 两个设计原则1.2.2 四个提高性能1.2.3 存储器层次1.2.4 冗余提高可靠性 1.3 软硬件基础1.3.1 编程语言分类1.3.2 硬件基础(1) 冯诺依曼

Hadoop简介_Hadoop集群_Hadoop安装配置

Hadoop集群(第5期)_Hadoop安装配置   1、集群部署介绍   1.1 Hadoop简介     Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透

转:Hadoop学习与安装

学习目标: 使用Hadoop分布式系统(HDFS)来海量存储数据集,通过MapReduce堆这些数据集运行分布式计算 熟悉Hadoop的数据和IO组件,用于压缩、数据集成、序列化和持久处理 熟悉编写MapReduce实际应用时的常见陷阱和高级特性 设计、勾践和管理一个专用的Hadoop集群或在云上运行Hadoop 使用高级查询语言Pig来处理大规模

在Linux(CentOS6.2)服务器上配置hadoop时遇到的一些问题以及一些解决办法

配置Hadoop时,注意,修改了配置文件后要先停止(stop-all.sh)后再开始运行(start-all.sh),如果不这样,当你在master时就会出现找不到某些datanode的情况,执行hadoop dfsadmin -report时datanode节点的信息状态就不会被发现(记住每个都要启动包括master和slave),这些命令在/usr/hadoop/bin下面,可以通过cd /u

【Hadoop学习笔记】认识Hadoop

认识Hadoop 从网上找的课程做的笔记,有些图是自己理解画的,可能不正确,可以作为参考,有疑问的地方请直接指出,共同交流。 Hadoop是由Apache基金会开发的一个分布式系统基础架构,主要解决海量数据的存储和海量数据的分析计算问题。 Hadoop发展历史 创始人:Doug Cutting 开发原由:实现与Google类似的全文搜索功能,在Lucene框架基础上进行优化升级,查

从工具产品体验对比spark、hadoop、flink

作为一名大数据开发,从工具产品的角度,对比一下大数据工具最常使用的框架spark、hadoop和flink。工具无关好坏,但人的喜欢有偏好。 目录 评价标准1 效率2 用户体验分析从用户的维度来看从市场的维度来看从产品的维度来看 3 用户体验的基本原则成本和产出是否成正比操作是否“人性化” 4. 功能性与用户体验评估总而言之 大数据框架评估用户视角效率示例代码Spark:计算Pi的近似值F

Hadoop archive

Index of /dist/hadoop/commonhttps://archive.apache.org/dist/hadoop/common/

转--Hadoop集群部署案例

模块简介 本模块主要练习Hadoop集群部署。 模块知识 ● 使用Linux基础命令 ● Hadoop集群搭建部署知识 环境准备 三台CentOS7操作系统的虚拟机 可以是3个Docker容器,也可以是三个VMWare/VirtualBox的虚拟机。三台虚拟机的最低配置为1核1G + 20G。如果是虚拟机中的Docker容器环境,则无需按照以下方式配置主机名和IP。若是按照《[选修]基于

HaLoop——适用于迭代计算的Hadoop

文章(VLDB‘2010) 该文章提出了对Hadoop的修改,使之能够适用于迭代计算,将原生的Hadoop中每一个job中一个map-reduce对改成多个map-reduce对,这样job就可以复用(如果不复用,每一个job完成之后都会把reduce的结果写进Hdfs文件,同时启动新的job时会从Hdfs中读文件,造成I/O压力),实现了在job内就可以控制迭代,同时由于迭代计算本身的特性(不变

从 Hadoop 迁移,无需淘汰和替换

我们仍然惊讶于有如此多的客户来找我们,希望从HDFS迁移到现代对象存储,如MinIO。我们现在以为每个人都已经完成了过渡,但每周,我们都会与一个决定进行过渡的主要、高技术性组织交谈。 很多时候,在这些讨论中,他们希望在迁移后维护其基础设施的某些元素。HDFS 生态系统中的一些框架和软件得到了大量开发人员的支持,并且在现代数据堆栈中仍然占有一席之地。事实上,我们经常说 HDFS 生态系统带来了