pig的函数

2024-03-18 20:38
文章标签 函数 pig

本文主要是介绍pig的函数,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

判断某个网站的前缀,并给其打上特定的标签值:

一个java代码例子如下:

Java代码
  1. public String  getTag(){  
  2.     //url文本  
  3.     String url="http://www.baidu.com.cn";  
  4.     //标签值  
  5.     String tags=null;  
  6.     if(url.startsWith("http://www.baidu")){  
  7.         tags="1";  
  8.     }else if(url.startsWith("http://www.dhx")){  
  9.         tags="2";  
  10.     }else{  
  11.         tags="0";  
  12.     }  
  13.     return url;  
  14. }  
    public String  getTag(){//url文本String url="http://www.baidu.com.cn";//标签值String tags=null;if(url.startsWith("http://www.baidu")){tags="1";}else if(url.startsWith("http://www.dhx")){tags="2";}else{tags="0";}return url;}



原来我的解决方法,是写了个UDF函数,来搞定,后来想了想使用UDF虽然比较灵活,但是侵入性比较强,过程比较繁琐,尤其是还得maven打成jar包,注册pig的udf函数,所以,便可以使用pig的replace的函数,来解决:

REPLACE函数用法:
REPLACE(str,regex,str2):
解释一下,三个参数
第一个是原始数据
第二个是匹配的正则 ,需要注意一些特殊字符需要转义, java中匹配任何字符的正则式时.*
第三个是替换后的内容


例子数据:


Java代码 复制代码  收藏代码
  1. 1,2,3  
  2. 2,1,3  
  3. 6,7,1  
  4. 1,4,4  
  5. 121,45,100  
  6. 100,23,12  
  7. 600,12,50  
  8. 4,1,2  
  9. http://www.baidu.com,1,2  
  10. http://www.video.baidu.com,1,2  
  11. http://www.souhu.com.cn,1,2  
  12. http://www.dh.com,1,2  
  13. http://www.es.dh.com,1,2  
  14. http://www.baidu.com,1,2  
  15. http://www.baidu.com,1,2  
1,2,3
2,1,3
6,7,1
1,4,4
121,45,100
100,23,12
600,12,50
4,1,2
http://www.baidu.com,1,2
http://www.video.baidu.com,1,2
http://www.souhu.com.cn,1,2
http://www.dh.com,1,2
http://www.es.dh.com,1,2
http://www.baidu.com,1,2
http://www.baidu.com,1,2




需求,将第一列等于1的和以http://www.baidu开头的内容,替换成对应的中文称呼:
pig脚本如下:


Java代码 复制代码  收藏代码
  1. a = load '/test' using PigStorage(',');  
  2. --其他特殊字符需要转义 最后的.*代表,替换所有内容为指定内容  
  3. a = foreach a generate  REPLACE($0,'^http:\\/\\/www\\.baidu.*','百度') , $1 ;  
  4. --多次替换可执行多个foreach过滤  
  5. a = foreach a generate REPLACE($0,'^1$','一') , $1 ;   
  6.   
  7. dump a;  
a = load '/test' using PigStorage(',');
--其他特殊字符需要转义 最后的.*代表,替换所有内容为指定内容
a = foreach a generate  REPLACE($0,'^http:\\/\\/www\\.baidu.*','百度') , $1 ;
--多次替换可执行多个foreach过滤
a = foreach a generate REPLACE($0,'^1$','一') , $1 ; dump a;




执行结果如下:

Java代码 复制代码  收藏代码
  1. (一,2)  
  2. (2,1)  
  3. (6,7)  
  4. (一,4)  
  5. (121,45)  
  6. (100,23)  
  7. (600,12)  
  8. (4,1)  
  9. (百度,1)  
  10. (http://www.video.baidu.com,1)  
  11. (http://www.souhu.com.cn,1)  
  12. (http://www.dh.com,1)  
  13. (http://www.es.dh.com,1)  
  14. (百度,1)  
  15. (百度,1)  
(一,2)
(2,1)
(6,7)
(一,4)
(121,45)
(100,23)
(600,12)
(4,1)
(百度,1)
(http://www.video.baidu.com,1)
(http://www.souhu.com.cn,1)
(http://www.dh.com,1)
(http://www.es.dh.com,1)
(百度,1)
(百度,1)




这种方式,适合逻辑不是特别复杂的情况下使用,总体来看,比较简单方便易懂

这篇关于pig的函数的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/823576

相关文章

pandas使用apply函数给表格同时添加多列

《pandas使用apply函数给表格同时添加多列》本文介绍了利用Pandas的apply函数在DataFrame中同时添加多列,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习... 目录一、Pandas使用apply函数给表格同时添加多列二、应用示例一、Pandas使用apply函

Python中Namespace()函数详解

《Python中Namespace()函数详解》Namespace是argparse模块提供的一个类,用于创建命名空间对象,它允许通过点操作符访问数据,比字典更易读,在深度学习项目中常用于加载配置、命... 目录1. 为什么使用 Namespace?2. Namespace 的本质是什么?3. Namesp

MySQL中如何求平均值常见实例(AVG函数详解)

《MySQL中如何求平均值常见实例(AVG函数详解)》MySQLavg()是一个聚合函数,用于返回各种记录中表达式的平均值,:本文主要介绍MySQL中用AVG函数如何求平均值的相关资料,文中通过代... 目录前言一、基本语法二、示例讲解1. 计算全表平均分2. 计算某门课程的平均分(例如:Math)三、结合

Python函数作用域与闭包举例深度解析

《Python函数作用域与闭包举例深度解析》Python函数的作用域规则和闭包是编程中的关键概念,它们决定了变量的访问和生命周期,:本文主要介绍Python函数作用域与闭包的相关资料,文中通过代码... 目录1. 基础作用域访问示例1:访问全局变量示例2:访问外层函数变量2. 闭包基础示例3:简单闭包示例4

Python中isinstance()函数原理解释及详细用法示例

《Python中isinstance()函数原理解释及详细用法示例》isinstance()是Python内置的一个非常有用的函数,用于检查一个对象是否属于指定的类型或类型元组中的某一个类型,它是Py... 目录python中isinstance()函数原理解释及详细用法指南一、isinstance()函数

python中的高阶函数示例详解

《python中的高阶函数示例详解》在Python中,高阶函数是指接受函数作为参数或返回函数作为结果的函数,下面:本文主要介绍python中高阶函数的相关资料,文中通过代码介绍的非常详细,需要的朋... 目录1.定义2.map函数3.filter函数4.reduce函数5.sorted函数6.自定义高阶函数

Python中的sort方法、sorted函数与lambda表达式及用法详解

《Python中的sort方法、sorted函数与lambda表达式及用法详解》文章对比了Python中list.sort()与sorted()函数的区别,指出sort()原地排序返回None,sor... 目录1. sort()方法1.1 sort()方法1.2 基本语法和参数A. reverse参数B.

Python函数的基本用法、返回值特性、全局变量修改及异常处理技巧

《Python函数的基本用法、返回值特性、全局变量修改及异常处理技巧》本文将通过实际代码示例,深入讲解Python函数的基本用法、返回值特性、全局变量修改以及异常处理技巧,感兴趣的朋友跟随小编一起看看... 目录一、python函数定义与调用1.1 基本函数定义1.2 函数调用二、函数返回值详解2.1 有返

Python Excel 通用筛选函数的实现

《PythonExcel通用筛选函数的实现》本文主要介绍了PythonExcel通用筛选函数的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着... 目录案例目的示例数据假定数据来源是字典优化:通用CSV数据处理函数使用说明使用示例注意事项案例目的第一

C++统计函数执行时间的最佳实践

《C++统计函数执行时间的最佳实践》在软件开发过程中,性能分析是优化程序的重要环节,了解函数的执行时间分布对于识别性能瓶颈至关重要,本文将分享一个C++函数执行时间统计工具,希望对大家有所帮助... 目录前言工具特性核心设计1. 数据结构设计2. 单例模式管理器3. RAII自动计时使用方法基本用法高级用法