pig简单介绍

2024-05-09 06:48
文章标签 简单 介绍 pig

本文主要是介绍pig简单介绍,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

                                                                  pig简单介绍

1.load:从文件中读取数据()
  用法:athletes = LOAD 'hdfs://master:9000/OlympicAthletes.csv' USING org.apache.pig.piggybank.storage.CSVExcelStorage(',', 'YES_MULTILINE', 'NOCHANGE', 'SKIP_INPUT_HEADER')  AS (athlete:chararray, country:chararray, year:int, sport:chararray, gold:int, silver:int, bronze:int, total:int);
  注意:load和=之间有空格
2. dump :把操作结果读取到屏幕
   用法:  DUMP athletes
3.limit:限制前面多少条
   用法:athletes_lim = LIMIT athletes 10;
         DUMP athletes_lim;
4.GROUP BY:按照字段分组(根据国家分组)
  用法: athletes_grp_country = GROUP athletes BY country;
5.DESCRIBE(描述结构)
 用法:describe athletes_grp_country
6.FOREACH … GENERATE(统计出每个国家(country)赢了多少金牌(sum(athletes.total)))
  medal_sum = FOREACH athletes_grp_country GENERATE group AS country, SUM(athletes.total) as medal_count;
  DUMP medal_sum;
  注意:athletes_grp_country是按照国家分组后的结果
7.distinct(把重复国家去掉)
    distinct_countries = DISTINCT (FOREACH athletes GENERATE country);
    DUMP distinct_countries;
   这里或者可以写成这样:
   a =  FOREACH athletes GENERATE country;
   distinct_countries = DISTINCT a;
   DUMP distinct_countries;
8. GROUP ALL
   data_range = FOREACH (GROUP athletes ALL) GENERATE MIN(athletes.year) as min_year, MAX(athletes.year) as max_year;
   DUMP data_range;
  注意: MIN  MAX区分大小写
9. order  .... by ....排序(按照金牌数降序排序)
   ordered_medals = ORDER medal_sum BY medal_count DESC;
    ordered_medals_lim = LIMIT ordered_medals 1;
    DUMP ordered_medals_lim;   
10.filter(找出不是游泳,根据国家分组,最高金牌的国家的金牌数)
   athletes_filter = FILTER athletes by sport != 'Swimming';
   medal_sum = FOREACH (GROUP athletes_filter BY country) GENERATE group as country, SUM(athletes_filter.total_medals) as medal_count;
   ordered_medals = ORDER medal_sum BY medal_count DESC;
   ordered_medals_lim = LIMIT ordered_medals 1;
   DUMP ordered_medals_lim; 
   注意:问题:多少国家只赢一个金牌?
    deco = filter medial_sum by count_medial == 1;
    suna= foreach (group deco all) generate COUNT(deco.count_medial);
11. join(他们已经获得了在连续的奥运会奖牌数相同的运动员)
    copy复制  athletes_copy = FOREACH athletes GENERATE athlete, year as year2, total as total2;
       athletes_join = JOIN athletes BY athlete, athletes_copy BY athlete;
      athletes_join_filtered = FILTER athletes_join BY total == total2 AND year2 == year+4;     
      athletes_output = FOREACH athletes_join_filtered GENERATE athletes::athlete as athlete, total2, year, year2; 
    这里有点问题!!!!!!!!
12.split()
    SPLIT athletes INTO
            summer_olympics IF year % 4 == 0,
            winter_olympics IF year % 4 != 0;
















from pig_util import outputSchema


@outputSchema('score:int')
def calculate_score(gold, silver, bronze):
    return 3 * gold + 2 * silver + bronze




REGISTER 'olympic_udfs.py' USING streaming_python AS udf




athlete_score = FOREACH athletes GENERATE athlete, udf.calculate_score(gold_medal, silver_medal, bronze_medal) as score;
      


问题:
找出哪个国家分数最高的冬季奥运会上我们的新指标


解决方法:
新建olympic_udfs.py内容如下4行:
from pig_util import outputSchema
@outputSchema('score:int')
def calculate_score(gold, silver, bronze):
    return 3 * gold + 2 * silver + bronze






register '/usr/local/pig/contrib/piggybank/java/piggybank.jar'     
REGISTER '/root/olympic_udfs.py' USING streaming_python AS udf


athletes = LOAD 'hdfs://master:9000/OlympicAthletes.csv' USING org.apache.pig.piggybank.storage.CSVExcelStorage(',', 'YES_MULTILINE', 'NOCHANGE', 'SKIP_INPUT_HEADER')  AS (athlete:chararray, country:chararray, year:int, sport:chararray, gold:int, silver:int, bronze:int, total:int);
SPLIT athletes INTO summer_olympics IF year % 4 == 0, winter_olympics IF year % 4 != 0;


1.winter_medal_sum = FOREACH (GROUP winter_olympics BY country) GENERATE group AS country, SUM(winter_olympics.gold)   as gold_sum, SUM(winter_olympics.silver) as silver_sum, SUM(winter_olympics.bronze) as bronze_sum;
3.country_scores = FOREACH winter_medal_sum GENERATE country, udf.calculate_score(gold_sum, silver_sum, bronze_sum) as score;
4.ordered_winter_medals = ORDER country_scores BY score DESC;
5.ordered_winter_medals_lim = LIMIT ordered_winter_medals 1;
DUMP ordered_winter_medals_lim; 


这篇关于pig简单介绍的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/972687

相关文章

Mysql表的简单操作(基本技能)

《Mysql表的简单操作(基本技能)》在数据库中,表的操作主要包括表的创建、查看、修改、删除等,了解如何操作这些表是数据库管理和开发的基本技能,本文给大家介绍Mysql表的简单操作,感兴趣的朋友一起看... 目录3.1 创建表 3.2 查看表结构3.3 修改表3.4 实践案例:修改表在数据库中,表的操作主要

springboot简单集成Security配置的教程

《springboot简单集成Security配置的教程》:本文主要介绍springboot简单集成Security配置的教程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录集成Security安全框架引入依赖编写配置类WebSecurityConfig(自定义资源权限规则

MySQL中慢SQL优化的不同方式介绍

《MySQL中慢SQL优化的不同方式介绍》慢SQL的优化,主要从两个方面考虑,SQL语句本身的优化,以及数据库设计的优化,下面小编就来给大家介绍一下有哪些方式可以优化慢SQL吧... 目录避免不必要的列分页优化索引优化JOIN 的优化排序优化UNION 优化慢 SQL 的优化,主要从两个方面考虑,SQL 语

如何使用Python实现一个简单的window任务管理器

《如何使用Python实现一个简单的window任务管理器》这篇文章主要为大家详细介绍了如何使用Python实现一个简单的window任务管理器,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起... 任务管理器效果图完整代码import tkinter as tkfrom tkinter i

C++中函数模板与类模板的简单使用及区别介绍

《C++中函数模板与类模板的简单使用及区别介绍》这篇文章介绍了C++中的模板机制,包括函数模板和类模板的概念、语法和实际应用,函数模板通过类型参数实现泛型操作,而类模板允许创建可处理多种数据类型的类,... 目录一、函数模板定义语法真实示例二、类模板三、关键区别四、注意事项 ‌在C++中,模板是实现泛型编程

Python实现html转png的完美方案介绍

《Python实现html转png的完美方案介绍》这篇文章主要为大家详细介绍了如何使用Python实现html转png功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 1.增强稳定性与错误处理建议使用三层异常捕获结构:try: with sync_playwright(

Java使用多线程处理未知任务数的方案介绍

《Java使用多线程处理未知任务数的方案介绍》这篇文章主要为大家详细介绍了Java如何使用多线程实现处理未知任务数,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 知道任务个数,你可以定义好线程数规则,生成线程数去跑代码说明:1.虚拟线程池:使用 Executors.newVir

使用EasyExcel实现简单的Excel表格解析操作

《使用EasyExcel实现简单的Excel表格解析操作》:本文主要介绍如何使用EasyExcel完成简单的表格解析操作,同时实现了大量数据情况下数据的分次批量入库,并记录每条数据入库的状态,感兴... 目录前言固定模板及表数据格式的解析实现Excel模板内容对应的实体类实现AnalysisEventLis

JAVA SE包装类和泛型详细介绍及说明方法

《JAVASE包装类和泛型详细介绍及说明方法》:本文主要介绍JAVASE包装类和泛型的相关资料,包括基本数据类型与包装类的对应关系,以及装箱和拆箱的概念,并重点讲解了自动装箱和自动拆箱的机制,文... 目录1. 包装类1.1 基本数据类型和对应的包装类1.2 装箱和拆箱1.3 自动装箱和自动拆箱2. 泛型2

Java中数组转换为列表的两种实现方式(超简单)

《Java中数组转换为列表的两种实现方式(超简单)》本文介绍了在Java中将数组转换为列表的两种常见方法使用Arrays.asList和Java8的StreamAPI,Arrays.asList方法简... 目录1. 使用Java Collections框架(Arrays.asList)1.1 示例代码1.