pig的函数

2024-03-18 20:38
文章标签 函数 pig

本文主要是介绍pig的函数,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

判断某个网站的前缀,并给其打上特定的标签值:

一个java代码例子如下:

Java代码
  1. public String  getTag(){  
  2.     //url文本  
  3.     String url="http://www.baidu.com.cn";  
  4.     //标签值  
  5.     String tags=null;  
  6.     if(url.startsWith("http://www.baidu")){  
  7.         tags="1";  
  8.     }else if(url.startsWith("http://www.dhx")){  
  9.         tags="2";  
  10.     }else{  
  11.         tags="0";  
  12.     }  
  13.     return url;  
  14. }  
    public String  getTag(){//url文本String url="http://www.baidu.com.cn";//标签值String tags=null;if(url.startsWith("http://www.baidu")){tags="1";}else if(url.startsWith("http://www.dhx")){tags="2";}else{tags="0";}return url;}



原来我的解决方法,是写了个UDF函数,来搞定,后来想了想使用UDF虽然比较灵活,但是侵入性比较强,过程比较繁琐,尤其是还得maven打成jar包,注册pig的udf函数,所以,便可以使用pig的replace的函数,来解决:

REPLACE函数用法:
REPLACE(str,regex,str2):
解释一下,三个参数
第一个是原始数据
第二个是匹配的正则 ,需要注意一些特殊字符需要转义, java中匹配任何字符的正则式时.*
第三个是替换后的内容


例子数据:


Java代码 复制代码  收藏代码
  1. 1,2,3  
  2. 2,1,3  
  3. 6,7,1  
  4. 1,4,4  
  5. 121,45,100  
  6. 100,23,12  
  7. 600,12,50  
  8. 4,1,2  
  9. http://www.baidu.com,1,2  
  10. http://www.video.baidu.com,1,2  
  11. http://www.souhu.com.cn,1,2  
  12. http://www.dh.com,1,2  
  13. http://www.es.dh.com,1,2  
  14. http://www.baidu.com,1,2  
  15. http://www.baidu.com,1,2  
1,2,3
2,1,3
6,7,1
1,4,4
121,45,100
100,23,12
600,12,50
4,1,2
http://www.baidu.com,1,2
http://www.video.baidu.com,1,2
http://www.souhu.com.cn,1,2
http://www.dh.com,1,2
http://www.es.dh.com,1,2
http://www.baidu.com,1,2
http://www.baidu.com,1,2




需求,将第一列等于1的和以http://www.baidu开头的内容,替换成对应的中文称呼:
pig脚本如下:


Java代码 复制代码  收藏代码
  1. a = load '/test' using PigStorage(',');  
  2. --其他特殊字符需要转义 最后的.*代表,替换所有内容为指定内容  
  3. a = foreach a generate  REPLACE($0,'^http:\\/\\/www\\.baidu.*','百度') , $1 ;  
  4. --多次替换可执行多个foreach过滤  
  5. a = foreach a generate REPLACE($0,'^1$','一') , $1 ;   
  6.   
  7. dump a;  
a = load '/test' using PigStorage(',');
--其他特殊字符需要转义 最后的.*代表,替换所有内容为指定内容
a = foreach a generate  REPLACE($0,'^http:\\/\\/www\\.baidu.*','百度') , $1 ;
--多次替换可执行多个foreach过滤
a = foreach a generate REPLACE($0,'^1$','一') , $1 ; dump a;




执行结果如下:

Java代码 复制代码  收藏代码
  1. (一,2)  
  2. (2,1)  
  3. (6,7)  
  4. (一,4)  
  5. (121,45)  
  6. (100,23)  
  7. (600,12)  
  8. (4,1)  
  9. (百度,1)  
  10. (http://www.video.baidu.com,1)  
  11. (http://www.souhu.com.cn,1)  
  12. (http://www.dh.com,1)  
  13. (http://www.es.dh.com,1)  
  14. (百度,1)  
  15. (百度,1)  
(一,2)
(2,1)
(6,7)
(一,4)
(121,45)
(100,23)
(600,12)
(4,1)
(百度,1)
(http://www.video.baidu.com,1)
(http://www.souhu.com.cn,1)
(http://www.dh.com,1)
(http://www.es.dh.com,1)
(百度,1)
(百度,1)




这种方式,适合逻辑不是特别复杂的情况下使用,总体来看,比较简单方便易懂

这篇关于pig的函数的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/823576

相关文章

Oracle的to_date()函数详解

《Oracle的to_date()函数详解》Oracle的to_date()函数用于日期格式转换,需要注意Oracle中不区分大小写的MM和mm格式代码,应使用mi代替分钟,此外,Oracle还支持毫... 目录oracle的to_date()函数一.在使用Oracle的to_date函数来做日期转换二.日

C++11的函数包装器std::function使用示例

《C++11的函数包装器std::function使用示例》C++11引入的std::function是最常用的函数包装器,它可以存储任何可调用对象并提供统一的调用接口,以下是关于函数包装器的详细讲解... 目录一、std::function 的基本用法1. 基本语法二、如何使用 std::function

hdu1171(母函数或多重背包)

题意:把物品分成两份,使得价值最接近 可以用背包,或者是母函数来解,母函数(1 + x^v+x^2v+.....+x^num*v)(1 + x^v+x^2v+.....+x^num*v)(1 + x^v+x^2v+.....+x^num*v) 其中指数为价值,每一项的数目为(该物品数+1)个 代码如下: #include<iostream>#include<algorithm>

C++操作符重载实例(独立函数)

C++操作符重载实例,我们把坐标值CVector的加法进行重载,计算c3=c1+c2时,也就是计算x3=x1+x2,y3=y1+y2,今天我们以独立函数的方式重载操作符+(加号),以下是C++代码: c1802.cpp源代码: D:\YcjWork\CppTour>vim c1802.cpp #include <iostream>using namespace std;/*** 以独立函数

函数式编程思想

我们经常会用到各种各样的编程思想,例如面向过程、面向对象。不过笔者在该博客简单介绍一下函数式编程思想. 如果对函数式编程思想进行概括,就是f(x) = na(x) , y=uf(x)…至于其他的编程思想,可能是y=a(x)+b(x)+c(x)…,也有可能是y=f(x)=f(x)/a + f(x)/b+f(x)/c… 面向过程的指令式编程 面向过程,简单理解就是y=a(x)+b(x)+c(x)

利用matlab bar函数绘制较为复杂的柱状图,并在图中进行适当标注

示例代码和结果如下:小疑问:如何自动选择合适的坐标位置对柱状图的数值大小进行标注?😂 clear; close all;x = 1:3;aa=[28.6321521955954 26.2453660695847 21.69102348512086.93747104431360 6.25442246899816 3.342835958564245.51365061796319 4.87

OpenCV结构分析与形状描述符(11)椭圆拟合函数fitEllipse()的使用

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C++11 算法描述 围绕一组2D点拟合一个椭圆。 该函数计算出一个椭圆,该椭圆在最小二乘意义上最好地拟合一组2D点。它返回一个内切椭圆的旋转矩形。使用了由[90]描述的第一个算法。开发者应该注意,由于数据点靠近包含的 Mat 元素的边界,返回的椭圆/旋转矩形数据

Unity3D 运动之Move函数和translate

CharacterController.Move 移动 function Move (motion : Vector3) : CollisionFlags Description描述 A more complex move function taking absolute movement deltas. 一个更加复杂的运动函数,每次都绝对运动。 Attempts to

✨机器学习笔记(二)—— 线性回归、代价函数、梯度下降

1️⃣线性回归(linear regression) f w , b ( x ) = w x + b f_{w,b}(x) = wx + b fw,b​(x)=wx+b 🎈A linear regression model predicting house prices: 如图是机器学习通过监督学习运用线性回归模型来预测房价的例子,当房屋大小为1250 f e e t 2 feet^

JavaSE(十三)——函数式编程(Lambda表达式、方法引用、Stream流)

函数式编程 函数式编程 是 Java 8 引入的一个重要特性,它允许开发者以函数作为一等公民(first-class citizens)的方式编程,即函数可以作为参数传递给其他函数,也可以作为返回值。 这极大地提高了代码的可读性、可维护性和复用性。函数式编程的核心概念包括高阶函数、Lambda 表达式、函数式接口、流(Streams)和 Optional 类等。 函数式编程的核心是Lambda