Hadoop2.2如何集成Apache Pig0.12.1?

2024-05-15 03:58

本文主要是介绍Hadoop2.2如何集成Apache Pig0.12.1?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

[b][color=green][size=large]

散仙假设你的Hadoop环境已经安装完毕


(1)到[url]https://archive.apache.org/dist/pig/[/url]下载对应的tar包,如果是hadoop0.20.x之前的版本,则直接可以用,如果Hadoop2.x之后的,则需要重新编译,在pig的根目录下执行如下命令:

[/size][/color][/b]

ant clean jar-withouthadoop -Dhadoopversion=23

否则执行MapReduce时,会报如下的异常

2013-10-24 09:35:19,300 [main] WARN
org.apache.pig.backend.hadoop20.PigJobControl - falling back to default
JobControl (not using hadoop 0.20 ?)
java.lang.NoSuchFieldException: runnerState
at java.lang.Class.getDeclaredField(Class.java:1938)
at
org.apache.pig.backend.hadoop20.PigJobControl.<clinit>(PigJobControl.java:51)
at
org.apache.p

(2)配置Pig的环境变量:
export PIG_CLASSPATH=$HADOOP_HOME/etc/hadoop
export PATH=/home/search/pig-0.12.1/bin:$PATH


(3)直接在linux终端执行pig命令,即可进入grunt界面:
2015-05-01 12:44:58,573 [main] INFO  org.apache.pig.Main - Apache Pig version 0.12.2-SNAPSHOT (r: unknown) compiled May 01 2015, 12:28:37
2015-05-01 12:44:58,574 [main] INFO org.apache.pig.Main - Logging error messages to: /home/search/pig-0.12.1/build/pig_1430498698551.log
2015-05-01 12:44:58,602 [main] INFO org.apache.pig.impl.util.Utils - Default bootup file /home/search/.pigbootup not found
2015-05-01 12:44:59,244 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - mapred.job.tracker is deprecated. Instead, use mapreduce.jobtracker.address
2015-05-01 12:44:59,244 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - fs.default.name is deprecated. Instead, use fs.defaultFS
2015-05-01 12:44:59,244 [main] INFO org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to hadoop file system at: hdfs://h1:8020
2015-05-01 12:44:59,247 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - mapred.used.genericoptionsparser is deprecated. Instead, use mapreduce.client.genericoptionsparser.used
2015-05-01 12:45:00,465 [main] INFO org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to map-reduce job tracker at: h1:8021
2015-05-01 12:45:00,469 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - fs.default.name is deprecated. Instead, use fs.defaultFS
grunt>


(4)pig -i查看pig的版本,
pig --help 查看pig的一些帮助命令
pig -x local 执行local模式
pig -x mapreduce 执行MapReduce模式

这篇关于Hadoop2.2如何集成Apache Pig0.12.1?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/990744

相关文章

集成算法实验与分析(软投票与硬投票)

概述 目的:让机器学习效果更好,单个不行,集成多个 集成算法 Bagging:训练多个分类器取平均 f ( x ) = 1 / M ∑ m = 1 M f m ( x ) f(x)=1/M\sum^M_{m=1}{f_m(x)} f(x)=1/M∑m=1M​fm​(x) Boosting:从弱学习器开始加强,通过加权来进行训练 F m ( x ) = F m − 1 ( x ) + a r

win+mac通用的SpringBoot+H2数据库集成过程。

有小部分大学的小部分老师多毛病,喜欢用些晦涩难搞的数据库来折腾学生,我不理解,但大受震撼。按我的理解,这种数据库看着好像本地快速测试代码很舒服,但依赖和数据库限制的很死板,对不上就是用不了,而且创建过程也麻烦,就算能借用mysql模型,也没多方便。 可以先看下面这篇了解下,再看我的避坑: springboot+H2集成的另一个帖子。 一. 搭建数据库 1.下载H2数据库 点击下载

linux下Spark SQL与hive hbase mysql集成

虚拟机环境:centos6 下述软件版本依自己本机版本相应修改 一、Spark SQL 与Hive集成(spark-shell) 1.需要配置的项目     1)将hive的配置文件hive-site.xml拷贝到spark conf目录,同时添加metastore的url配置。         执行操作: vi hive-site.xml,添加如下内容: <property><n

SpringBoot基于OpenAPI3的接口文档管理快速集成和使用

你好,这里是codetrend专栏“SpringCloud2023实战”。 本文主要简单介绍SpringCloud2023中进行接口文档管理,方便前后端开发和文档维护。文档管理工具基于开源的knife4j封装的openapi3。 前言 OpenAPI 3.0(前身为Swagger)是一种RESTful API文档规范。OpenAPI 3.0规范是一种易于阅读和理解、跨平台和语言、提高协作效率

Apache Cassandra SSTable 存储格式详解

简介: 在 Cassandra 中,当达到一定条件触发 flush 的时候,表对应的 Memtable 中的数据会被写入到这张表对应的数据目录(通过 data_file_directories 参数配置)中,并生成一个新的 SSTable(Sorted Strings Table,这个概念是从 Google 的 BigTable 借用的)。 在 Cassandra 中,当达到一定条件触发

Apache Calcite教程-SQL解析-Calcite自定义语法解析

版权 Calcite自定义SQL解析 常用方法和配置 config.fmpp 配置和Parser.jj文件结合说明 package,class,imports keywords nonReservedKeywords joinTypes statementParserMethods literalParserMethods dataTypeParserMethods alterStatement

Apache Cassandra性能调优-混合工作负载压缩

这是我们关于使用Apache Cassandra进行性能调整的系列文章中的第三篇。在我们的第一篇文章中,我们讨论了如何使用火焰图直观地诊断性能问题。在第二篇文章中,我们讨论了JVM调优,以及不同的JVM设置如何影响不同的工作负载。 在本文中,我们将深入探讨通常被忽略的表级设置:压缩。可以在创建或更改表时指定压缩选项,如果未指定,则默认启用。当处理写入繁重的工作负载时,默认值很棒,但是对于读

大型医疗器械企业四套系统数据集成技术干货分享

在大型医疗企业中,数据的互联互通是提升运营效率和数据利用率的关键。本次分享将概述如何通过轻易云集成平台将金蝶ERP、ZOHO CRM、泛微OA和汇联易报销系统进行高效联动,展示在实施过程中积累的技术干货。 某大型医疗企业,专注于麻醉和呼吸医疗器械的研发与制造。为了优化业务流程并提高运营效率,公司采用了一系列系统集成解决方案,打破数据孤岛,实现信息的高效共享与互通。以下详述企业在实施过程中遇到的具

CentOS7 安装配置过程 (Apache + SQL+ PHP + SSH + Opensips+Openfire)

一、制作CentOS  U盘启动器 1.CentOS 7.0 64位系统:CentOS-7.0-1406-x86_64-DVD.iso CentOS-7.0-1406 ISO境像下载地址: http://www.linuxidc.com/Linux/2014-07/104146.htm 2.UltraISO UltraISO v9.5.3.2901 简体中文: http://www.li

iOS 集成微信SDK1.8.6.1

官方文档:配置应用 微信SDK版本:1.8.6.1 Xcode版本:11.0 1.配置应用的Universal Links 1、创建一个无后缀名的文件"apple-app-site-association" 内容为: { “applinks”: { “apps”: [], “details”: [{ “appID”: “8P7343TG54.com.tencent.xin.SDKSample