pig的安装及简单的操作

2024-03-15 13:30
文章标签 简单 安装 操作 pig

本文主要是介绍pig的安装及简单的操作,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

解压

这里写图片描述

配置PIG_HONE

vim ~/.bash_profile

这里写图片描述

验证

出现如下信息则成功

pig [-]help

这里写图片描述
这里写图片描述

启动

Pig 有两种运行模式:Local 模式和 MapReduce 模式。Local 模式只能访问本地
系统文件,一般用于处理小规模的数据集,不需要 Hadoop 集群环境的支持。
MapReduce 模式运行于 Hadoop 集群环境上,Pig 将 Pig Latin 程序编译为
MapReduce 作业执行。Pig 程序的运行由三种方法:脚本文件、Grunt Shell 和程
序嵌入式。这三种方法均适用于 Local 模式和 MapReduce 模式,在 Local 模式与
MapReduce 模式下的执行几乎一样,只需说明采用的模式就行。

Local 模式
(1)Grunt Shell
命令:pig -x local
这里写图片描述

(2)脚本文件
命令:pig -x local xxx.pig
xxx.pig 为对应的 Pig 脚本文件。这里要指定绝对路径为佳。
(3)程序嵌入式
将 Pig 命令嵌入到其他高级语言所写的文件中,直接运行程序,和原来运行
普通程序的方式完全一样。如:
javac -cp xxx.jar:. local
3.2 MapReduce 模式
在 MapReduce 模式下,Pig 会将查询翻译为相应的 MapReduce 作业,接着在
Hadoop 集群上运行,其本质还是 MapReduce 作业。所以,如果没有设置
HADOOP_HOME 环境变量,需要先设置
验证:
pig -x mapreduce
这里写图片描述

查看
这里写图片描述

操作数据

A = LOAD 'data.txt' USING PigStorage(' ') AS (ip:chararray);
B = FOREACH(GROUP A BY ip) GENERATE group AS ip,COUNT(A) AS clickes;

这里写图片描述
这里写图片描述

Result:
输入:

DUMP

这里写图片描述

如果要提取点击次数最高的前 3 个 IP,则进行如下操作:

C = ORDER B BY clickes DESC;
D = LIMIT C 3;

这里写图片描述
这里写图片描述

这篇关于pig的安装及简单的操作的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/812120

相关文章

如何解决mmcv无法安装或安装之后报错问题

《如何解决mmcv无法安装或安装之后报错问题》:本文主要介绍如何解决mmcv无法安装或安装之后报错问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mmcv无法安装或安装之后报错问题1.当我们运行YOwww.chinasem.cnLO时遇到2.找到下图所示这里3.

Python 安装和配置flask, flask_cors的图文教程

《Python安装和配置flask,flask_cors的图文教程》:本文主要介绍Python安装和配置flask,flask_cors的图文教程,本文通过图文并茂的形式给大家介绍的非常详细,... 目录一.python安装:二,配置环境变量,三:检查Python安装和环境变量,四:安装flask和flas

使用Python开发一个简单的本地图片服务器

《使用Python开发一个简单的本地图片服务器》本文介绍了如何结合wxPython构建的图形用户界面GUI和Python内建的Web服务器功能,在本地网络中搭建一个私人的,即开即用的网页相册,文中的示... 目录项目目标核心技术栈代码深度解析完整代码工作流程主要功能与优势潜在改进与思考运行结果总结你是否曾经

Win11安装PostgreSQL数据库的两种方式详细步骤

《Win11安装PostgreSQL数据库的两种方式详细步骤》PostgreSQL是备受业界青睐的关系型数据库,尤其是在地理空间和移动领域,:本文主要介绍Win11安装PostgreSQL数据库的... 目录一、exe文件安装 (推荐)下载安装包1. 选择操作系统2. 跳转到EDB(PostgreSQL 的

Linux系统中卸载与安装JDK的详细教程

《Linux系统中卸载与安装JDK的详细教程》本文详细介绍了如何在Linux系统中通过Xshell和Xftp工具连接与传输文件,然后进行JDK的安装与卸载,安装步骤包括连接Linux、传输JDK安装包... 目录1、卸载1.1 linux删除自带的JDK1.2 Linux上卸载自己安装的JDK2、安装2.1

Mysql表的简单操作(基本技能)

《Mysql表的简单操作(基本技能)》在数据库中,表的操作主要包括表的创建、查看、修改、删除等,了解如何操作这些表是数据库管理和开发的基本技能,本文给大家介绍Mysql表的简单操作,感兴趣的朋友一起看... 目录3.1 创建表 3.2 查看表结构3.3 修改表3.4 实践案例:修改表在数据库中,表的操作主要

C# WinForms存储过程操作数据库的实例讲解

《C#WinForms存储过程操作数据库的实例讲解》:本文主要介绍C#WinForms存储过程操作数据库的实例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、存储过程基础二、C# 调用流程1. 数据库连接配置2. 执行存储过程(增删改)3. 查询数据三、事务处

Linux卸载自带jdk并安装新jdk版本的图文教程

《Linux卸载自带jdk并安装新jdk版本的图文教程》在Linux系统中,有时需要卸载预装的OpenJDK并安装特定版本的JDK,例如JDK1.8,所以本文给大家详细介绍了Linux卸载自带jdk并... 目录Ⅰ、卸载自带jdkⅡ、安装新版jdkⅠ、卸载自带jdk1、输入命令查看旧jdkrpm -qa

Java使用Curator进行ZooKeeper操作的详细教程

《Java使用Curator进行ZooKeeper操作的详细教程》ApacheCurator是一个基于ZooKeeper的Java客户端库,它极大地简化了使用ZooKeeper的开发工作,在分布式系统... 目录1、简述2、核心功能2.1 CuratorFramework2.2 Recipes3、示例实践3

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4