pig的安装及简单的操作

2024-03-15 13:30

文章标签 简单安装操作 pig

本文主要是介绍pig的安装及简单的操作，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

解压

这里写图片描述

配置PIG_HONE

vim ~/.bash_profile

这里写图片描述

验证

出现如下信息则成功

pig [-]help

这里写图片描述

启动

Pig 有两种运行模式：Local 模式和 MapReduce 模式。Local 模式只能访问本地
系统文件，一般用于处理小规模的数据集，不需要 Hadoop 集群环境的支持。
MapReduce 模式运行于 Hadoop 集群环境上，Pig 将 Pig Latin 程序编译为
MapReduce 作业执行。Pig 程序的运行由三种方法：脚本文件、Grunt Shell 和程
序嵌入式。这三种方法均适用于 Local 模式和 MapReduce 模式，在 Local 模式与
MapReduce 模式下的执行几乎一样，只需说明采用的模式就行。

Local 模式
（1）Grunt Shell
命令：pig -x local
这里写图片描述

（2）脚本文件
命令：pig -x local xxx.pig
xxx.pig 为对应的 Pig 脚本文件。这里要指定绝对路径为佳。
（3）程序嵌入式
将 Pig 命令嵌入到其他高级语言所写的文件中，直接运行程序，和原来运行
普通程序的方式完全一样。如：
javac -cp xxx.jar:. local
3.2 MapReduce 模式
在 MapReduce 模式下，Pig 会将查询翻译为相应的 MapReduce 作业，接着在
Hadoop 集群上运行，其本质还是 MapReduce 作业。所以，如果没有设置
HADOOP_HOME 环境变量，需要先设置
验证：
pig -x mapreduce
这里写图片描述

查看
这里写图片描述

操作数据

A = LOAD 'data.txt' USING PigStorage(' ') AS (ip:chararray);
B = FOREACH(GROUP A BY ip) GENERATE group AS ip,COUNT(A) AS clickes;

这里写图片描述

Result:
输入：

DUMP

这里写图片描述

如果要提取点击次数最高的前 3 个 IP，则进行如下操作：

C = ORDER B BY clickes DESC;
D = LIMIT C 3;

这里写图片描述

这篇关于pig的安装及简单的操作的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

pig的安装及简单的操作

相关文章

如何解决mmcv无法安装或安装之后报错问题

Python 安装和配置flask, flask_cors的图文教程

使用Python开发一个简单的本地图片服务器

Win11安装PostgreSQL数据库的两种方式详细步骤

Linux系统中卸载与安装JDK的详细教程

Mysql表的简单操作(基本技能)

C# WinForms存储过程操作数据库的实例讲解

Linux卸载自带jdk并安装新jdk版本的图文教程

Java使用Curator进行ZooKeeper操作的详细教程

Java利用JSONPath操作JSON数据的技术指南