本文主要是介绍pig的安装及简单的操作,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
解压
配置PIG_HONE
vim ~/.bash_profile
验证
出现如下信息则成功
pig [-]help
启动
Pig 有两种运行模式:Local 模式和 MapReduce 模式。Local 模式只能访问本地
系统文件,一般用于处理小规模的数据集,不需要 Hadoop 集群环境的支持。
MapReduce 模式运行于 Hadoop 集群环境上,Pig 将 Pig Latin 程序编译为
MapReduce 作业执行。Pig 程序的运行由三种方法:脚本文件、Grunt Shell 和程
序嵌入式。这三种方法均适用于 Local 模式和 MapReduce 模式,在 Local 模式与
MapReduce 模式下的执行几乎一样,只需说明采用的模式就行。
Local 模式
(1)Grunt Shell
命令:pig -x local
(2)脚本文件
命令:pig -x local xxx.pig
xxx.pig 为对应的 Pig 脚本文件。这里要指定绝对路径为佳。
(3)程序嵌入式
将 Pig 命令嵌入到其他高级语言所写的文件中,直接运行程序,和原来运行
普通程序的方式完全一样。如:
javac -cp xxx.jar:. local
3.2 MapReduce 模式
在 MapReduce 模式下,Pig 会将查询翻译为相应的 MapReduce 作业,接着在
Hadoop 集群上运行,其本质还是 MapReduce 作业。所以,如果没有设置
HADOOP_HOME 环境变量,需要先设置
验证:
pig -x mapreduce
查看
操作数据
A = LOAD 'data.txt' USING PigStorage(' ') AS (ip:chararray);
B = FOREACH(GROUP A BY ip) GENERATE group AS ip,COUNT(A) AS clickes;
Result:
输入:
DUMP
如果要提取点击次数最高的前 3 个 IP,则进行如下操作:
C = ORDER B BY clickes DESC;
D = LIMIT C 3;
这篇关于pig的安装及简单的操作的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!