玩转HBase: Coprocessor Endpoint (1):startkey和endkey的真正作用

2023-12-13 07:58

本文主要是介绍玩转HBase: Coprocessor Endpoint (1):startkey和endkey的真正作用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Coprocessor(协处理器)是HBase 0.92版后加入的新组件,详情请见:HBase: Coprocessor Introduction。

本系列主要探讨Coprocessor的Endpoint方法。

本篇主要介绍Endpoint中startkey和endkey的真正作用。

官方把Coprocessor的Endpoint比喻成关系型数据库的StoreProcedure(存储过程),这个比喻很恰当。但我个人觉得Endpoint有时更像是一个只有单个Reduce的MapReduce,Reduce是Client,Maps就是Regions上的Endpoints。

接触过Coprocessor方法的童鞋都应该知道Endpoint的Client调用方法有两个,如下:

[java]  view plain copy
  1. org.apache.hadoop.hbase.client.HTable.coprocessorProxy(  
  2.     Class<? extends Map<byte[], String>> protocol,  
  3.     byte[] row  
  4. )  
  5.   
  6. org.apache.hadoop.hbase.client.HTable.coprocessorExec(  
  7.     Class<ScanCoprocessorProtocol> protocol,  
  8.     byte[] startKey,  
  9.     byte[] endKey,  
  10.     Call<ScanCoprocessorProtocol,  
  11.     String> callable  
  12. throws IOException, Throwable  

coprocessorProxy是串行调用方法,coprocessorExec是并行调用方法。
如果需要跨多个Region调用,coprocessorExec性能要高于coprocessorProxy。
那么如何才能让Client锁定Region呢?
coprocessorProxy由参数row控制,coprocessorExec由startkey和endkey控制。这里要强调一下,很多新手都会搞错一个概念,他们会认为startkey和endkey是就是Scan方法中的startRow和stopRow~~~,其实不然
[java]  view plain copy
  1. org.apache.hadoop.hbase.client.Scan.Scan(byte[]startRow, byte[]stopRow)  

Scan中的startRow和stopRow是控制Row上下标,也就是说Scan操作的对象是数据。而coprocessorExec的startkey和endkey的操作对象是Region,这个概念千万不能搞错~~
举个例子有一张表TB: startRow=1000000,endRow=2000000,一共100W条数据。现在把这100W数据平均分到10个Region上
Region1:  1000000--1100000
Region2:  1100001--1200000
Region3:  1200001--1300000
..............
Region10:1900001--2000000
现在我们根据Row的范围做一次Count统计

如果调用Scan做一次Client统计

[java]  view plain copy
  1. String RowKey = "1050001";  
  2. String EndKey = "1100000";  
  3. HTable myTB = new HTable(conf, "TB");  
  4. Scan myScan = new Scan(RowKey.getBytes(),EndKey.getBytes());  
  5. ResultScanner rs = myTB.getScanner(myScan);  
  6. int Count = 0;  
  7. while(rs.hasnext())  
  8.     Count++;  

最后的结果Count = 5W。

但是如果把coprocessorExec的startkey和endkey当成Scan中的startRow和stopRow来调用Endpoint,悲剧发生了~~

[java]  view plain copy
  1. String RowKey = "1050001";  
  2. String EndKey  = "1100000";  
  3. //伪代码,真正的调用方式不是这样的  
  4. int Count = coprocessorExec(  
  5.     Myprotocol.class,  
  6.     RowKey.getBytes(),  
  7.     EndKey.getBytes(),  
  8.     new Batch.Call<Myprotocol, int>() {  
  9. public String call(Myprotocol counter)  
  10.     throws IOException {  
  11.         return MyScan();  
  12.     }  
  13. });  
  14.   
  15.   
  16. //Endpoint方法  
  17. int MyScan(){  
  18.     Scan myScan = new Scan();  
  19.     RegionCoprocessorEnvironment environment = (RegionCoprocessorEnvironment) getEnvironment();  
  20.     InternalScanner scanner = environment.getRegion().getScanner(myScan);  
  21.     int Count = 0;  
  22.     while(scanner.hasnext())  
  23.         Count ++;  
  24.     return Count;  
  25. }  
最后结果:Count =10W,尽然扫描了整个Region1 惊恐 ~~~这是因为coprocessorExec的startkey和endkey定位对象是Region,只要startkey和endkey的区间内的任何一个ROW覆盖到了某个Region,那么该Region的所有数据都会被扫描一次,最后只会得到一个错误的结果。

官方的例子中,scan实例是在Endpoint函数中定义的,这很可能会误导很多新手。为了避免这种情况发生,我们只要在MyScan方法中加入一个Scan参数,Client定义好Scan的startRow和stopRow,并向MyScan传入该参数。

[java]  view plain copy
  1. String RowKey = "1050001";  
  2. String EndKey  = "1100000";  
  3. Scan myScan = new Scan(RowKey.getBytes(),EndKey.getBytes());  
  4. //伪代码,真正的调用方式不是这样的  
  5. int Count = coprocessorExec(  
  6.         Myprotocol.class,  
  7.         RowKey.getBytes(),  
  8.         EndKey.getBytes(),  
  9.         new Batch.Call<Myprotocol, int>() {  
  10.             public String call(Myprotocol counter)  
  11.                 throws IOException {  
  12.                 return MyScan(myScan);  
  13.             }  
  14. });  
  15.   
  16.   
  17. //Endpoint方法  
  18. int MyScan(myScan){  
  19.     RegionCoprocessorEnvironment environment = (RegionCoprocessorEnvironment) getEnvironment();  
  20.     InternalScanner scanner = environment.getRegion().getScanner(myScan);  
  21.     int Count = 0;  
  22.         while(scanner.hasnext())  
  23.         Count ++;  
  24.     return Count;  
  25. }  

这样就可以得到正确的统计值。
当然除了Scan,其他例如Get、Put、HTable甚至自定义类型都是可以作为参数传入的,这由业务决定。
我个人认为Endpoint作用不光是用来统计数据,还可以代替Scan方法用来查询明细数据,只不过开发人员需要自己去封装 List<Result>,有时我们甚至可以用Endpoint,去建立异步的二级索引和整理后台数据等工作。
今后会提供一些Coprocessor的实例源码,下期放上一个复杂的Endpoint实例讲解。
注:以上代码都是Java伪代码,不能直接Copy使用。
本文是CSDN-撸大湿原创,如要转载请注明出处,谢谢。

如有任何异议请留言,或去CSDN-Hadoop论坛找我,欢迎拍砖~

下期将重点讨论在不同的应用场景下,如何选择coprocessorProxy和coprocessorExec。

并结合自己写的源码的对这两个方法做详细的分析玩转HBase: Coprocessor Endpoint (2):coprocessorProxy和coprocessorExec的合理运用

这篇关于玩转HBase: Coprocessor Endpoint (1):startkey和endkey的真正作用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/487669

相关文章

Android fill_parent、match_parent、wrap_content三者的作用及区别

这三个属性都是用来适应视图的水平或者垂直大小,以视图的内容或尺寸为基础的布局,比精确的指定视图的范围更加方便。 1、fill_parent 设置一个视图的布局为fill_parent将强制性的使视图扩展至它父元素的大小 2、match_parent 和fill_parent一样,从字面上的意思match_parent更贴切一些,于是从2.2开始,两个属性都可以使用,但2.3版本以后的建议使

maven发布项目到私服-snapshot快照库和release发布库的区别和作用及maven常用命令

maven发布项目到私服-snapshot快照库和release发布库的区别和作用及maven常用命令 在日常的工作中由于各种原因,会出现这样一种情况,某些项目并没有打包至mvnrepository。如果采用原始直接打包放到lib目录的方式进行处理,便对项目的管理带来一些不必要的麻烦。例如版本升级后需要重新打包并,替换原有jar包等等一些额外的工作量和麻烦。为了避免这些不必要的麻烦,通常我们

秒变高手:玩转CentOS 7软件更换的方法大全

在 CentOS 7 中更换软件源可以通过以下步骤完成。更换源可以加快软件包的下载速度,特别是当默认源速度较慢时。以下是详细步骤: 前言 为了帮助您解决在使用CentOS 7安装不了软件速度慢的问题,我们推出了这份由浪浪云赞助的教程——“CentOS7如何更换软件源加快下载速度”。 浪浪云,以他们卓越的弹性计算、云存储和网络服务受到广泛好评,他们的支持和帮助使得我们可以将最前沿的技术知识分

未来工作趋势:零工小程序在共享经济中的作用

经济在不断发展的同时,科技也在飞速发展。零工经济作为一种新兴的工作模式,正在全球范围内迅速崛起。特别是在中国,随着数字经济的蓬勃发展和共享经济模式的深入推广,零工小程序在促进就业、提升资源利用效率方面显示出了巨大的潜力和价值。 一、零工经济的定义及现状 零工经济是指通过临时性、自由职业或项目制的工作形式,利用互联网平台快速匹配供需双方的新型经济模式。这种模式打破了传统全职工作的界限,为劳动

Science|癌症中三级淋巴结构的免疫调节作用与治疗潜力|顶刊精析·24-09-08

小罗碎碎念 Science文献精析 今天精析的这一篇综述,于2022-01-07发表于Science,主要讨论了癌症中的三级淋巴结构(Tertiary Lymphoid Structures, TLS)及其在肿瘤免疫反应中的作用。 作者类型作者姓名单位名称(中文)通讯作者介绍第一作者Ton N. Schumacher荷兰癌症研究所通讯作者之一通讯作者Daniela S. Thomm

j2EE通用jar包的作用

原文:http://blog.sina.com.cn/s/blog_610901710101kx37.html IKIKAnalyzer3.2.8.jar // 分词器 ant-junit4.jar // ant junit antlr-2.7.6.jar // 没有此包,hibernate不会执行hql语句。并且会报NoClassDefFoundError: antlr

【vue3|第28期】 Vue3 + Vue Router:探索路由重定向的使用与作用

日期:2024年9月8日 作者:Commas 签名:(ง •_•)ง 积跬步以致千里,积小流以成江海…… 注释:如果您觉在这里插入代码片得有所帮助,帮忙点个赞,也可以关注我,我们一起成长;如果有不对的地方,还望各位大佬不吝赐教,谢谢^ - ^ 1.01365 = 37.7834;0.99365 = 0.0255 1.02365 = 1377.4083;0.98365 = 0.0006 说

请解释Java Web应用中的前后端分离是什么?它有哪些好处?什么是Java Web中的Servlet过滤器?它有什么作用?

请解释Java Web应用中的前后端分离是什么?它有哪些好处? Java Web应用中的前后端分离 在Java Web应用中,前后端分离是一种开发模式,它将传统Web开发中紧密耦合的前端(用户界面)和后端(服务器端逻辑)代码进行分离,使得它们能够独立开发、测试、部署和维护。在这种模式下,前端通常通过HTTP请求与后端进行数据交换,后端则负责业务逻辑处理、数据库交互以及向前端提供RESTful

Hive和Hbase的区别

Hive 和 HBase 都是 Hadoop 生态系统中的重要组件,它们都能处理大规模数据,但各自有不同的适用场景和设计理念。以下是两者的主要区别: 1. 数据模型 Hive:Hive 类似于传统的关系型数据库 (RDBMS),以表格形式存储数据。它使用 SQL-like 语言 HiveQL 来查询和处理数据,数据通常是结构化或半结构化的。HBase:HBase 是一个 NoSQL 数据库,基

PRN(20201231):驾驶人驾驶决策机制遵循最小作用量原理

王建强, 郑讯佳, 黄荷叶. 驾驶人驾驶决策机制遵循最小作用量原理[J]. 中国公路学报, 2020, v.33;No.200(04):159-172. 观点: 为提升智能汽车的自主决策能力,使其能够学习人的决策智慧以适应复杂多变的道路交通环境,需要揭示驾驶人决策机制。 依据: 物理学中常用最小作用量原理解释自然界(包括物理和生物行为)极值现象。同时,最小作用量原理还用于解释蚂蚁在觅