Hadoop基础学习:基于Hortonworks HDP

2024-06-10 00:08

本文主要是介绍Hadoop基础学习:基于Hortonworks HDP,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Hadoop基础学习:基于Hortonworks
HDP

我最开始是通过Hadoop Fundamentals这个课程学习了Hadoop的基础知识,该课程使用了Hortonworks的HDP作为Hadoop平台。HDP是一个与Cloudera,
MapR类似的一个企业级Hadoop解决方案,而HDP Sandbox给开发者提供了一个安装好所有Hadoop组件的虚拟机,将其导入到VirtualBox后就可以直接启动(注意需要给虚拟机分配至少2G内存)。

Big Data和Hadoop

大数据是一个热门词汇,而Hadoop可以说是目前大数据处理的基石。大数据并不是说一定要处理特别大规模的数据,而是在于可以在各种数据尺度上找到你要的答案,这些数据包括:用户数据,机器数据等等。我们可以从基础设施,算法和可视化等各个方面来理解大数据。

在基础设施方面,我们有Hadoop的HDFS作为文件系统,MapReduce来做批处理,此外有HBase,Cassandra,Riak等NoSQL数据库,还有Kafka,RabbitMQ等消息中间件。在算法方面,主要是对现有的机器学习算法的实现。在可视化方面,常见的有Matplotlib(python语言),R语言,D3(JavaScript语言)。 

 

初步认识HDP

HDP是操作系统是CentOS 6,启动后除了可以用ssh登陆以外,还可以登陆网页界面(http://127.0.0.1:8888)。系统默认帮我们安装的软件主要包括:

  • HDFS + MapReduce
  • Hue
  • HCatelog
  • Pig
  • Hive

HBase默认没有安装,启用HBase的话应该需要给虚拟机分配更多内存。

Hadoop是一个开源的数据分析平台,它与传统的数据分析平台相比当然有很多优点(开源,性价比,扩展性等),但是它们本质上并没有太大不同。一个完整的数据分析平台需要的组件Hadoop都有涉及:

  • 数据存储 : HDFS提供一个可扩展和容错的文件系统
  • 数据处理:MapReduce等提供了的数据访问和处理模型
  • 数据管理:HCatelog提供数据管理,管理数据到文件的映射(相当于RDBMS数据库中管理表结构与表文件的关系)
  • 数据查询:Pig和Hive对数据文件的查询,它们在底层都基于MapReduce模型来处理数据。其中Hive的特点在于提供类似于SQL语言的查询环境,Pig提供了自己的数据处理语言
  • 系统管理:Zookeeper和Oozie等

 

通过HDP自带的教程学习了Hive和Pig的基本知识,HDP自带了基于Web的Hive和Pig的查询界面,使用起来比命令行要友好。

Pig脚本

Pig首先实现了一种ETL语言(PigLatin),通过使用LOAD,GROUP等系统命令以及自定义命令,可以对数据进行复杂的处理。另一方面,Pig在执行命令时会把命令转化为MapReduce任务,也就是说对于很多MapReduce操作用户不再需要使用冗长的Java编程=》编译=》执行流程。最后,Pig也允许用户实现自定义方法(UDF)来扩展功能。

 
  1. //从文件中加载数据
  2. batting = load 'Batting.csv' using PigStorage(',');
  3.  
  4. //读取文件中的若干列
  5. runs = FOREACH batting GENERATE $0 as playerID, $1 as year, $8 as runs;
  6.  
  7. //按照年份划分数据
  8. grp_data = GROUP runs by (year);
  9.  
  10. //对划分后的数据进行进一步处理
  11. max_runs = FOREACH grp_data GENERATE group as grp,MAX(runs.runs) as max_runs;
  12.  
  13. //连接max_runs和runs,按照指定的两个列连接,连接的表包括两表的所有列
  14. join_max_run = JOIN max_runs by ($0, max_runs), runs by (year,runs);
  15.  
  16. //重新选取部分列
  17. join_data = FOREACH join_max_run GENERATE $0 as year, $2 as playerID, $1 as runs;
  18.  
  19. dump join_data;
  20.  

Hive查询

如果说Pig在传统数据仓库的意义上是一种ETL语言(当然Pig的用处不止于此),那么Hive相当于传统数据仓库中的SQL语言。Hive则可以允许你创建表,在表中导入和处理数据,数据处理的结果可以再保存到表中。Hive和Pig的详细比较可以参照这篇文章。

下面这写Hive命令实现了与前面Pig脚本一样的功能。

 
  1. create table temp_batting (col_value STRING);
  2.  
  3. LOAD DATA INPATH '/user/hue/Batting.csv' OVERWRITE INTO TABLE temp_batting;
  4.  
  5. create table batting (player_id STRING, year INT, runs INT);
  6.  
  7. insert overwrite table batting
  8. SELECT
  9. regexp_extract(col_value, '^(?:([^,]*)\,?){1}', 1) player_id,
  10. regexp_extract(col_value, '^(?:([^,]*)\,?){2}', 1) year,
  11. regexp_extract(col_value, '^(?:([^,]*)\,?){9}', 1) run
  12. from temp_batting;
  13.  
  14. SELECT year, max(runs) FROM batting GROUP BY year;
  15.  
  16. SELECT a.year, a.player_id, a.runs from batting a
  17. JOIN (SELECT year, max(runs) runs FROM batting GROUP BY year ) b
  18. ON (a.year = b.year AND a.runs = b.runs) ;

HBase和MapReduce编程

HBase是Google的BigTable的一种实现,即面向列的数据库。HBase相对于Hadoop比较独立,原因在于:1)HBase不依赖于MapReduce,它可以完全不在HDFS上部署,虽然在生产环境上会推荐部署到HDFS上;2)HBase的编程模型也不一定是MapReduce。

HBase和MapReduce编程可以参考Hadoop:
The Definitive Guide。

Hadoop的最新发展

Apache Tez, 新一代的准实时(near real-time)大数据处理。在Hadoop 2.0的环境下,MapReduce(也就是传统的Batch编程模式)仅仅是其一种实现,而Tez成为了新一代的任务执行引擎,反过来支持MapRecue,Pig,Hive等功能。

 

Apache Storm,实时数据处理

Apache Flume,流式数据(例如日志)的处理

Apache Mahout,机器学习算法库

Apache ZooKeeper 分布式系统协调服务

这篇关于Hadoop基础学习:基于Hortonworks HDP的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1046693

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

hadoop开启回收站配置

开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。 开启回收站功能参数说明 (1)默认值fs.trash.interval = 0,0表示禁用回收站;其他值表示设置文件的存活时间。 (2)默认值fs.trash.checkpoint.interval = 0,检查回收站的间隔时间。如果该值为0,则该值设置和fs.trash.interval的参数值相等。

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss