最近一些工作的总结(关于HBase Coprocessor,多版本多条件检索多Rowkey检索)

2024-04-20 06:18

本文主要是介绍最近一些工作的总结(关于HBase Coprocessor,多版本多条件检索多Rowkey检索),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

首先是HBase协处理器的一些理解上的问题。
之前写的博文HBase Coprocessor是按照别人的代码做的一个测试小实验,虽然成功了,但是没有完全理解,所以当自己真的要用协处理器的时候重新理解了一下。
其实,协处理器实现二级索引的本质是自动维护两张表格。比如我需要的主表如下
HBase主表
需要对列族 Coid的 LatLonCode变量做一个二级索引,其实就是维护另一张表,我把它称为协处理表,这个表的Rowkey就是这个LatLonCode的值,而表中列族就是主表的Rowkey。所以设计协处理表如下
协处理表
所以检索的时候,如果要通过LatLonCode的值得到对应的属性数据,先检索协处理表,得到这个值对应的主表Rowkey值,也就是ID,再根据这个Rowkey到主表中去检索对应的数据。
所以,上述过程的协处理器JAVA代码应该是这样的。

public class IDCoprocessor extends BaseRegionObserver {//Coprocessor table nameprivate static final byte[] TABLE_NAME=Bytes.toBytesBinary("DataCoid");// Main table familyprivate static final byte[] COLUMN_FAMILY1=Bytes.toBytes("Coid");// Main table column that is to be coprocessedprivate static final byte[] COLUMN1=Bytes.toBytes("LatLonCode");// Coprocessor table family and column// value of LatLineCode is equal to Rowkey in the main tableprivate static final byte[] COLUMN_FAMILY2=Bytes.toBytes("ID");private static final byte[] COLUMN2=Bytes.toBytes("LatLineCode");private Configuration configuration=HBaseConfiguration.create();public void prePut(ObserverContext<RegionCoprocessorEnvironment>e, Put put, WALEdit edit,Durability durability) {// get the values from the main tableList<Cell> kv=put.get(COLUMN_FAMILY1, COLUMN1);Iterator<Cell> kvIterator=kv.iterator();try {HTable Coid=new HTable(configuration,TABLE_NAME);while(kvIterator.hasNext()) {Cell tmp=kvIterator.next();final byte[] value=CellUtil.cloneValue(tmp);// value as the rowkey to put to the coprocessor tablePut indexPut=new Put(value);indexPut.addColumn(COLUMN_FAMILY2, COLUMN2, CellUtil.cloneRow(tmp));Coid.put(indexPut);}Coid.close();} catch (IOException e1) {// TODO Auto-generated catch blocke1.printStackTrace();}}}

接下来是多版本检索的问题。
HBase的Rowkey是唯一的,不然在put的时候,不同版本的数据其实是会覆盖的。但是把LatLonCode这个Column的值作为协处理表的Rowkey,这个值极有可能不是唯一的。也就是说在主表中,不同Rowkey下对应的LatLonCode值相同。这个时候,在协处理表中就要处理多版本数据的存储和检索问题。
一开始以为只需要在检索的时候加上setMaxVersion()就可以了,其实在HBase创建表的时候就需要设置表格存储多版本数据。
在HBase shell里设置协处理表的属性

hbase > alter 'Datacoid',{NAME=>'ID',VERSIONS=>100}

把协处理表Datacoid的ID列族修改为可以存储100个版本的数据。然后在检索的时候直接setMaxVersion()了

关于多条件的检索。
JAVA操作HBaseIO时获取数据有两种方式,get是根据rowkey获得某一行的数据,而scan可以设置查询条件,从而获得符合条件的所有数据,比如rowkey大于某个值小于某个值,或者针对rowkey的正则表达式检索等。
用scan进行查询通过设置过滤器filter来设置查询条件,如果有多个查询条件,通过FilterList实现。
具体参考FilterList

另外,get是一次get一条数据,如果rowkey有很多,比如我需要get 20多万条数据,这个时候一条创建一个get是非常耗时的,可以用 List<Get>方法,对每一个Rowkey创建一个Get,然后把Get放到一个List里,直接获取。

public void Run(float latstart,float latend,float lonstart,float lonend) {EncodeNOIGRF Eno=new EncodeNOIGRF(latstart,latend,lonstart,lonend);Object[] codes=Eno.getCodes();ArrayList<String> codes2check=(ArrayList<String>) codes[1];Iterator<String> iterator=codes2check.iterator();List<Get> get2check=new ArrayList<Get>();while(iterator.hasNext()) {// every rowkey a new Get, and add it to List<Get> get2checkGet get=new Get(Bytes.toBytes(iterator.next()));get2check.add(get);}Result[] results2check;try {results2check = this.table.get(get2check);} catch (IOException e) {// TODO Auto-generated catch blocke.printStackTrace();}}

这篇关于最近一些工作的总结(关于HBase Coprocessor,多版本多条件检索多Rowkey检索)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/919490

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

poj1330(LCA最近公共祖先)

题意:求最近公共祖先 思路:之前学习了树链剖分,然后我就用树链剖分的一小部分知识就可以解这个题目了,记录每个结点的fa和depth。然后查找时,每次将depth大的结点往上走直到x = y。 代码如下: #include<iostream>#include<algorithm>#include<stdio.h>#include<math.h>#include<cstring>

Android实现任意版本设置默认的锁屏壁纸和桌面壁纸(两张壁纸可不一致)

客户有些需求需要设置默认壁纸和锁屏壁纸  在默认情况下 这两个壁纸是相同的  如果需要默认的锁屏壁纸和桌面壁纸不一样 需要额外修改 Android13实现 替换默认桌面壁纸: 将图片文件替换frameworks/base/core/res/res/drawable-nodpi/default_wallpaper.*  (注意不能是bmp格式) 替换默认锁屏壁纸: 将图片资源放入vendo

git使用的说明总结

Git使用说明 下载安装(下载地址) macOS: Git - Downloading macOS Windows: Git - Downloading Windows Linux/Unix: Git (git-scm.com) 创建新仓库 本地创建新仓库:创建新文件夹,进入文件夹目录,执行指令 git init ,用以创建新的git 克隆仓库 执行指令用以创建一个本地仓库的

二分最大匹配总结

HDU 2444  黑白染色 ,二分图判定 const int maxn = 208 ;vector<int> g[maxn] ;int n ;bool vis[maxn] ;int match[maxn] ;;int color[maxn] ;int setcolor(int u , int c){color[u] = c ;for(vector<int>::iter

整数Hash散列总结

方法:    step1  :线性探测  step2 散列   当 h(k)位置已经存储有元素的时候,依次探查(h(k)+i) mod S, i=1,2,3…,直到找到空的存储单元为止。其中,S为 数组长度。 HDU 1496   a*x1^2+b*x2^2+c*x3^2+d*x4^2=0 。 x在 [-100,100] 解的个数  const int MaxN = 3000

状态dp总结

zoj 3631  N 个数中选若干数和(只能选一次)<=M 的最大值 const int Max_N = 38 ;int a[1<<16] , b[1<<16] , x[Max_N] , e[Max_N] ;void GetNum(int g[] , int n , int s[] , int &m){ int i , j , t ;m = 0 ;for(i = 0 ;

go基础知识归纳总结

无缓冲的 channel 和有缓冲的 channel 的区别? 在 Go 语言中,channel 是用来在 goroutines 之间传递数据的主要机制。它们有两种类型:无缓冲的 channel 和有缓冲的 channel。 无缓冲的 channel 行为:无缓冲的 channel 是一种同步的通信方式,发送和接收必须同时发生。如果一个 goroutine 试图通过无缓冲 channel

工作常用指令与快捷键

Git提交代码 git fetch  git add .  git commit -m “desc”  git pull  git push Git查看当前分支 git symbolic-ref --short -q HEAD Git创建新的分支并切换 git checkout -b XXXXXXXXXXXXXX git push origin XXXXXXXXXXXXXX