Hbase中的BloomFilter（布隆过滤器）

本文主要是介绍Hbase中的BloomFilter（布隆过滤器），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

（1） Bloomfilter在hbase中的作用

　　　　Hbase利用bloomfilter来提高随机读（get）的性能，对于顺序读（scan）而言，设置Bloomfilter是没有作用的（0.92版本以后，如果设置了bloomfilter为rowcol，对于执行了qualifier的scan有　　　　一定的优化）

（2） Bloomfilter在hbase中的开销

　　　　Bloomfilter是一个列族(cf)级别的配置属性，如果在表中设置了bloomfilter，那么hbase会在生成storefile时包含一份bloomfilter结构的数据，称其为MetaBlock与DataBlock（真实的KeyValue　　　　数据）一起由LRUBlockCache维护。所以开启bloomfilter会有一定的存储及内存cache开销。

（3） Hbase中的bloomfilter的类型及使用

　　　　a) ROW，根据KeyValue中的row来过滤storefile。举例：（该情况可以针对列族和列都相同，只有rowkey不同的情况下，可以使用ROW来过滤。）

　　　　　　　　如：假设有2个storfile文件sf1和sf2，

　　　　　　　　sf1包含kv1（r1 cf:q1 v）、kv2（r2 cf:q1 v）

　　　　　　　　sf2包含kv3（r3 cf:q2 v）、kv4（r4 cf:q2 v）

　　　　　　　　如果设置了cf属性的bloomfilter为ROW，那么get（r1）时会过滤sf2，get（r3）时会过滤sf1.

　　　　b) ROWCOL，根据KeyValue中的row+qualifier来过滤storefile。举例：（该情况是针对列族相同，列和rowkey不同的情况，可以用ROWCOL来过滤。）

　　　　　　　　如：假设有2个storefile文件sf1和sf2，

　　　　　　　　Sf1包含kv1（r1 cf:q1 v）、kv2（r2 cf:q1 v）

　　　　　　　　Sf2包含kv3（r1 cf:q2 v）、kv4（r2 cf:q2 v）

　　　　　　　　如果设置了cf属性中的bloomfilter为ROW，无论get（r1，q1）还是get（r1，q2）都会读取sf1+sf2；而如果设置了cf属性中的bloomfilter为ROWCOL，那么get（r1，q1）就会过滤　　　　　　　　　sf2，get（r1，q2）就会过滤sf1。

（4）ROWCOL与ROW对比