Apache Pig和Solr问题笔记(一)

2024-05-15 03:58
文章标签 问题 笔记 apache solr pig

本文主要是介绍Apache Pig和Solr问题笔记(一),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

记录下最近两天散仙在工作中遇到的有关Pig0.12.0和Solr4.10.2一些问题,总共有3个,如下:

(1)问题一: 如何Pig中使用ASCII和十六进制(hexadecimal)的分隔符进行加载,和切分数据?

注意关于这个问题,在Pig中,会反应到2个场景中,
第一: 在Pig加载(load)数据时候 。
第二: 在Pig处理split,或则正则截取数据的时候。

先稍微说下,为啥使用十六进制的字段分隔符,而不是我们常见的空格,逗号,冒号,分号,#号,等,这些字符,虽然也可以使用,但是如果我们数据中有和这些符号冲突的数据,那么在解析时,就会发生一些出人意料的Bug,所以,为了保险起见,选用肉眼不可读的十六进制的数据,是一个不错的选择,当然这也是,针对场景来说的,看情况决定。

关于详细的ASCII和十六进制,二进制,八进制,十进制的文档介绍,请参考维基百科全书。

下面继续回到正题,本例中,我们的数据格式是这样存储的:

Java代码 复制代码  收藏代码
  1. 每行一条记录,UTF-8编码;   
  2. 每条记录都包括字段名和字段内容;   
  3. 字段之间用ascii码1分隔;   
  4. 字段名与内容之间用ascii码2分隔;  
每行一条记录,UTF-8编码;
每条记录都包括字段名和字段内容;
字段之间用ascii码1分隔;
字段名与内容之间用ascii码2分隔;


一个在eclipse中的小例子如下:
Java代码 复制代码  收藏代码
  1. public static void main(String[] args) {   
  2.     //注意\1和\2,在我们的IDE中,NotePad++中,Linux的终端设备的界面中,都会呈现不同的   
  3.     //显示方式,大家可以在维基百科中,详细了解下   
  4.     //数据示例   
  5.     String s="prod_cate_disp_id019";   
  6.     //split规则   
  7.     String ss[]=s.split("\2");   
  8.     for(String st:ss){   
  9.         System.out.println(st);   
  10.     }   
  11. }  
	public static void main(String[] args) {//注意\1和\2,在我们的IDE中,NotePad++中,Linux的终端设备的界面中,都会呈现不同的//显示方式,大家可以在维基百科中,详细了解下//数据示例String s="prod_cate_disp_id019";//split规则String ss[]=s.split("\2");for(String st:ss){System.out.println(st);}}



关于load函数,加载时支持的分隔符类型,大家可以参考官网的文档
下面看在Pig脚本的代码:

Java代码 复制代码  收藏代码
  1. --Hadoop技术交流群:415886155  
  2. /*Pig支持的分隔符包括:  
  3. 1,任意字符串,  
  4. 2,任意转义字符  
  5. 3,dec的字符\\u001 或者 \\u002  
  6. 4,十六进行字符 \\x0A  \\x0B  
  7. */  
  8. --注意这个load时的分隔符,代表ASCII的1,作为Pig里面的dec直接解析方式   
  9. a = load '/tmp/dongliang/20150401/20150301/tmp_search_keywords_cate_stat/' using PigStorage('\\u001') ;   
  10.   
  11. /**  
  12.  
  13. 注意下面的分割符^B,这个符号是脱元字符,只会在终端设备上  
  14. 显示,这个符号,代表ASCII的2  
  15. */  
  16. a = foreach a generate   REGEX_EXTRACT ($0'(.*)^B(.*)'2) as time ,   
  17.                          REGEX_EXTRACT ($1'(.*)^B(.*)'2) as kw ,   
  18.                          REGEX_EXTRACT ($2'(.*)^B(.*)'2) as ic ,   
  19.                          REGEX_EXTRACT ($3'(.*)^B(.*)'2) as cid,   
  20.                          REGEX_EXTRACT ($4'(.*)^B(.*)'2) as cname,   
  21.                          REGEX_EXTRACT ($5'(.*)^B(.*)'2) as pname,   
  22.                          REGEX_EXTRACT ($6'(.*)^B(.*)'2) as snt,   
  23.                          REGEX_EXTRACT ($7'(.*)^B(.*)'2) as cnt,   
  24.                          REGEX_EXTRACT ($8'(.*)^B(.*)'2) as fnt,   
  25.                          REGEX_EXTRACT ($9'(.*)^B(.*)'2) as ant,   
  26.                          REGEX_EXTRACT ($10'(.*)^B(.*)'2) as pnt ;   
  27.   
  28. --获取字符串长度   
  29. a = foreach a generate SIZE(cid) as len;   
  30. --按长度分组   
  31. b = group a by len;   
  32. --统计各个长度下的数量   
  33. c = foreach b generate group, COUNT($1);   
  34. --输出打印   
  35. dump c;  
--Hadoop技术交流群:415886155
/*Pig支持的分隔符包括:
1,任意字符串,
2,任意转义字符
3,dec的字符\\u001 或者 \\u002
4,十六进行字符 \\x0A  \\x0B
*/
--注意这个load时的分隔符,代表ASCII的1,作为Pig里面的dec直接解析方式
a = load '/tmp/dongliang/20150401/20150301/tmp_search_keywords_cate_stat/' using PigStorage('\\u001') ;/**注意下面的分割符^B,这个符号是脱元字符,只会在终端设备上
显示,这个符号,代表ASCII的2
*/
a = foreach a generate   REGEX_EXTRACT ($0, '(.*)^B(.*)', 2) as time ,REGEX_EXTRACT ($1, '(.*)^B(.*)', 2) as kw ,REGEX_EXTRACT ($2, '(.*)^B(.*)', 2) as ic ,REGEX_EXTRACT ($3, '(.*)^B(.*)', 2) as cid,REGEX_EXTRACT ($4, '(.*)^B(.*)', 2) as cname,REGEX_EXTRACT ($5, '(.*)^B(.*)', 2) as pname,REGEX_EXTRACT ($6, '(.*)^B(.*)', 2) as snt,REGEX_EXTRACT ($7, '(.*)^B(.*)', 2) as cnt,REGEX_EXTRACT ($8, '(.*)^B(.*)', 2) as fnt,REGEX_EXTRACT ($9, '(.*)^B(.*)', 2) as ant,REGEX_EXTRACT ($10, '(.*)^B(.*)', 2) as pnt ;--获取字符串长度
a = foreach a generate SIZE(cid) as len;
--按长度分组
b = group a by len;
--统计各个长度下的数量
c = foreach b generate group, COUNT($1);
--输出打印
dump c;



(2)问题二:如何在Apache Solr中,查询某个不分词的field的长度,有多少个记录?

Solr里面并没有直接提供这样类似JAVA里的lenth这样的函数,或者Pig里面的SIZE这样的函数,那么我们应该如何查询呢?

Solr虽然不直接支持这样的查询,但是我们可以通过正则查询,来变相的实现这个目的,用法如下:
(1)查询固定长度 cid:/.{6}/ 只过滤长度为6的记录
(2)查询范围长度 cid:/.{6,9}/ 只过滤长度6到9的记录
(3)查询最少多少长度以上的cid:/.{6}.*/ 长度最少为6的



(3)问题三:在使用Pig+MapReduce,向Solr中,批量添加索引时,发现,无任何错误异常,但是索引里却没任何数据?

这是一个比较诡异的问题,本来,散仙觉得应该是程序出问题了,但是后来发现,同样的代码向另外一个collection里添加数据,就很正常,查看solr的log,发现里面打印的一些信息如下:


Java代码 复制代码  收藏代码
  1. INFO  - 2015-04-01 21:08:36.097; org.apache.solr.update.DirectUpdateHandler2; start commit{,optimize=false,openSearcher=true,waitSearcher=true,expungeDeletes=false,softCommit=false,prepareCommit=false}   
  2. INFO  - 2015-04-01 21:08:36.098; org.apache.solr.update.DirectUpdateHandler2; No uncommitted changes. Skipping IW.commit.   
  3. INFO  - 2015-04-01 21:08:36.101; org.apache.solr.core.SolrCore; SolrIndexSearcher has not changed - not re-opening: org.apache.solr.search.SolrIndexSearcher   
  4. INFO  - 2015-04-01 21:08:36.102; org.apache.solr.update.DirectUpdateHandler2; end_commit_flush  
INFO  - 2015-04-01 21:08:36.097; org.apache.solr.update.DirectUpdateHandler2; start commit{,optimize=false,openSearcher=true,waitSearcher=true,expungeDeletes=false,softCommit=false,prepareCommit=false}
INFO  - 2015-04-01 21:08:36.098; org.apache.solr.update.DirectUpdateHandler2; No uncommitted changes. Skipping IW.commit.
INFO  - 2015-04-01 21:08:36.101; org.apache.solr.core.SolrCore; SolrIndexSearcher has not changed - not re-opening: org.apache.solr.search.SolrIndexSearcher
INFO  - 2015-04-01 21:08:36.102; org.apache.solr.update.DirectUpdateHandler2; end_commit_flush



解释下上面的信息的意思,大概就是说在数据索引完了,但是没有发现有commit的数据,所以跳过commit,这一点在程序跑的时候是非常奇怪的,因为数据源HDFS里最少有110万的数据,怎么会没有数据呢? 然后散仙通过谷歌搜索发现也有人发现类似的奇怪情况,无任何异常的情况下,重建索引成功,却在索引里没有看见任何数据,而且最为疑惑的是,这几个网上已经有的案例,竟然没有一个有解决方案。

没办法了,只好再次查看程序,这一次散仙,把中间处理好需要建索引的数据,给打印出来看一下,到底什么情况,结果打印出来的都是一行行空数据,原来在使用正则截取数据时,原来的分隔符失效了,所以导致截取不到数据,这下问题基本定位了,solr索引里没有数据,肯定是因为本来就没有数据提交,导致的那个奇怪的log发生,结果在散仙把这个bug修复之后,再次重建索引,发现这次果然成功了,在Solr中,也能正常查询到数据。如果你也发生了类似的情况,请首先确保你能正确的获取到数据,不论是从远程读取的,还是解析word,excel,或者txt里面的数据,都要首先确定,能够正确的把数据解析出来,然后,如果还是没建成功,可根据solr的log或者抛出的异常提示,进行修复 。


这篇关于Apache Pig和Solr问题笔记(一)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/990738

相关文章

linux生产者,消费者问题

pthread_cond_wait() :用于阻塞当前线程,等待别的线程使用pthread_cond_signal()或pthread_cond_broadcast来唤醒它。 pthread_cond_wait() 必须与pthread_mutex 配套使用。pthread_cond_wait()函数一进入wait状态就会自动release mutex。当其他线程通过pthread

问题:第一次世界大战的起止时间是 #其他#学习方法#微信

问题:第一次世界大战的起止时间是 A.1913 ~1918 年 B.1913 ~1918 年 C.1914 ~1918 年 D.1914 ~1919 年 参考答案如图所示

Tolua使用笔记(上)

目录   1.准备工作 2.运行例子 01.HelloWorld:在C#中,创建和销毁Lua虚拟机 和 简单调用。 02.ScriptsFromFile:在C#中,对一个lua文件的执行调用 03.CallLuaFunction:在C#中,对lua函数的操作 04.AccessingLuaVariables:在C#中,对lua变量的操作 05.LuaCoroutine:在Lua中,

AssetBundle学习笔记

AssetBundle是unity自定义的资源格式,通过调用引擎的资源打包接口对资源进行打包成.assetbundle格式的资源包。本文介绍了AssetBundle的生成,使用,加载,卸载以及Unity资源更新的一个基本步骤。 目录 1.定义: 2.AssetBundle的生成: 1)设置AssetBundle包的属性——通过编辑器界面 补充:分组策略 2)调用引擎接口API

2024.6.24 IDEA中文乱码问题(服务器 控制台 TOMcat)实测已解决

1.问题产生原因: 1.文件编码不一致:如果文件的编码方式与IDEA设置的编码方式不一致,就会产生乱码。确保文件和IDEA使用相同的编码,通常是UTF-8。2.IDEA设置问题:检查IDEA的全局编码设置和项目编码设置是否正确。3.终端或控制台编码问题:如果你在终端或控制台看到乱码,可能是终端的编码设置问题。确保终端使用的是支持你的文件的编码方式。 2.解决方案: 1.File -> S

vcpkg安装opencv中的特殊问题记录(无法找到opencv_corexd.dll)

我是按照网上的vcpkg安装opencv方法进行的(比如这篇:从0开始在visual studio上安装opencv(超详细,针对小白)),但是中间出现了一些别人没有遇到的问题,虽然原因没有找到,但是本人给出一些暂时的解决办法: 问题1: 我在安装库命令行使用的是 .\vcpkg.exe install opencv 我的电脑是x64,vcpkg在这条命令后默认下载的也是opencv2:x6

《offer来了》第二章学习笔记

1.集合 Java四种集合:List、Queue、Set和Map 1.1.List:可重复 有序的Collection ArrayList: 基于数组实现,增删慢,查询快,线程不安全 Vector: 基于数组实现,增删慢,查询快,线程安全 LinkedList: 基于双向链实现,增删快,查询慢,线程不安全 1.2.Queue:队列 ArrayBlockingQueue:

问题-windows-VPN不正确关闭导致网页打不开

为什么会发生这类事情呢? 主要原因是关机之前vpn没有关掉导致的。 至于为什么没关掉vpn会导致网页打不开,我猜测是因为vpn建立的链接没被更改。 正确关掉vpn的时候,会把ip链接断掉,如果你不正确关掉,ip链接没有断掉,此时你vpn又是没启动的,没有域名解析,所以就打不开网站。 你可以在打不开网页的时候,把vpn打开,你会发现网络又可以登录了。 方法一 注意:方法一虽然方便,但是可能会有

vue同页面多路由懒加载-及可能存在问题的解决方式

先上图,再解释 图一是多路由页面,图二是路由文件。从图一可以看出每个router-view对应的name都不一样。从图二可以看出层路由对应的组件加载方式要跟图一中的name相对应,并且图二的路由层在跟图一对应的页面中要加上components层,多一个s结尾,里面的的方法名就是图一路由的name值,里面还可以照样用懒加载的方式。 页面上其他的路由在路由文件中也跟图二是一样的写法。 附送可能存在

vue+elementui--$message提示框被dialog遮罩层挡住问题解决

最近碰到一个先执行this.$message提示内容,然后接着弹出dialog带遮罩层弹框。那么问题来了,message提示框会默认被dialog遮罩层挡住,现在就是要解决这个问题。 由于都是弹框,问题肯定是出在z-index比重问题。由于用$message方式是写在js中而不是写在html中所以不是很好直接去改样式。 不过好在message组件中提供了customClass 属性,我们可以利用