Apache Tez基本知识

2024-06-12 19:38
文章标签 apache tez 基本知识

本文主要是介绍Apache Tez基本知识,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

官方blog:

http://hortonworks.com/blog/author/arun_murthy/

svn源码:

http://hortonworks.com/blog/introducing-tez-faster-hadoop-processing/

看到一篇很不错的文章:

http://dongxicheng.org/mapreduce-nextgen/apache-tez/

Tez安装:

 

http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.0.0.2/bk_installing_manually_book/content/rpm-chap-tez.html

 

名称解释:

DAG:Directed Acyclic Graph 无环有向图

 

Tez将Map task和Reduce task进一步拆分,

Tez的task由Input、processor、output阶段组成,可以表达所有复杂的map、reduce操作。


这样,这些分解后的元操作可以任意灵活组合,产生新的操作单元Task.

 

举个例子:

在传统的MR如下左图所示,而采用Tez之后则将DAG的依赖关系去除,Tez将有依赖关系的作业转换为一个作业,如下右图所示。

 

 

 

           

 

 

                                         Pig/Hive -MR                                                  Pig/Hive -Tez

 

 

代码结构图如下:

 

 

 

•tez-api:六个可编程组件

•tez-common

•tez-engine

•tez-mapreducetez-task-library: Tez为兼容MR提供的组件

•tez-yarn-application

•tez-yarn-client

这篇关于Apache Tez基本知识的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1055148

相关文章

详细分析Springmvc中的@ModelAttribute基本知识(附Demo)

目录 前言1. 注解用法1.1 方法参数1.2 方法1.3 类 2. 注解场景2.1 表单参数2.2 AJAX请求2.3 文件上传 3. 实战4. 总结 前言 将请求参数绑定到模型对象上,或者在请求处理之前添加模型属性 可以在方法参数、方法或者类上使用 一般适用这几种场景: 表单处理:通过 @ModelAttribute 将表单数据绑定到模型对象上预处理逻辑:在请求处理之前

修改wamp的apache默认端口80以及www目录

转自:http://blog.csdn.net/daydreamingboy/article/details/6247592 修改wamp的apache默认端口80以及www目录 以修改为8088端口和D:/workphp目录为例。 1. 修改为8088端口 左键托盘图标,在“Apache”里可以直接打开httpd.conf,查找到“Listen 80”,可以改成其他端口,我选用808

Linux命令与基本知识

一、基本知识 1、Linux内多有的数据都是以文件的形态呈现的。Linux系统中最重要的在于目录树结构。整个目录树结构最重要的是根目录,其表示方法为“/”。 2、挂载(mount):即将目录树结构的架构与磁盘内的数据结合起来。挂载利用一个目录作为进入点,将磁盘分区的数据放置在该目录下,也就是说,进入该目录就可以读取该分区。 树状目录结构 /bin:bin是Binary的缩写, 这个

Ubuntu 服务器上安装和配置 Apache Web 服务器详细的步骤

在 Ubuntu 服务器上安装和配置 Apache Web 服务器。下面是详细的步骤: 安装 Apache 首先,确保你的包列表是最新的,然后安装 Apache: sudo apt updatesudo apt install apache2 启动和检查 Apache 服务 安装完成后,启动 Apache 服务并检查其状态: sudo systemctl start apache2s

apache环境配置 | httpd Could not reliably determine the server's fully qualified domain name

前言 作为php开发者,你是否遇到这种情况。经常我们会在Linux系统上通过php do.php命令进行程序调试。有时候明明通过命令行方式调试程序成功后,却发现在浏览器请求我们的www.test.com/../do.php却不能够成功执行,报500错误。 这时候执行service httpd restart重启web服务 启动apache遇到错误:“Starting httpd: http

keepalived高可用,nginx+keepalived+apache架构的实现

目    录 一、概述: 二、实验架构图如图所示: 三、实验环境: 四、实现效果: 五、实验解析及步骤: 六、具体实现: 6.1 先关闭防火墙和核心防护:两条命令: 6.2 后端apache服务器的实现 6.3 nginx负载均衡和方向代理的配置 6.4 keepalived集群 6.5 测试 6.5.1 对keepalived的关闭和开启测试 6.5.2 对nginx的

Apache Maven 入门篇(二)

作者:George Ma 第一篇文章大概的介绍了一下Apache Maven以及它的下载和安装,并且运行了一个简单的示例。那么在对maven有了一点接触后,接下去的一步是要了解maven的核心概念,这样才能在使用maven的时候游刃有余。 接下来我们介绍下面这几个核心概念: POM (Project Object Model)Maven 插件Maven 生命周期Maven 依赖管理Maven

Apache Maven 入门篇 (一)

作者:George Ma 写这个 maven 的入门篇是因为之前在一个开发者会的动手实验中发现挺多人对于 maven 不是那么了解,所以就有了这个想法。 这个入门篇分上下两篇。本文着重动手,用 maven 来构建运行 hellow world 程序,体会一下不用任何 IDE ,只用 maven 是咋回事。然后下篇就讲解一下 maven 的核心概念。写这两篇文章特意回避了复杂的示例,也不使用 ID

整合之前的一些学习记录1(nginx和apache的部署)

1.部署相关 Node.js + Socket+mysql apache和nginx IIS+C#+sqlserver LAMP(linux+apache+mysql+php) wamp(window+apache+mysql+php) apache和nginx可以归为一类,属于静态页面服务器。tomcat属于Java Servlet容器,用来生成动态页面的。 1.这么说不确切。Tomc

基于 apache-arrow 的 duckdb rust 客户端

背景 duckdb 是一个 C++ 编写的单机版嵌入式分析型数据库。它刚开源的时候是对标 SQLite 的列存数据库,并提供与 SQLite 一样的易用性,编译成一个头文件和一个 cpp 文件就可以在程序中使用,甚至提供与 SQLite 兼容的接口,因此受到了很多人的关注。 本文介绍笔者近期开发的 duckdb-rs 库,让大家可以很方便地在 rust 代码库中使用 duckdb 的功能。 li