RedissonClient妙用-分布式布隆过滤器

2024-02-09 12:04

本文主要是介绍RedissonClient妙用-分布式布隆过滤器,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

布隆过滤器介绍

布隆过滤器的落地应用场景

高并发处理 

多个过滤器平滑切换

分析总结


布隆过滤器介绍

布隆过滤器(Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。

它的优点是空间效率和查询时间都比一般的算法要好的多,缺点是有一定的误识别率和删除困难。

什么业务场景需要使用这个布隆过滤器呢?我个人觉得是对误判数据不敏感。比如,在一个质检系统中,客服人员对重复的录音是非常敏感的,至于少了一些录音,对他们来说是无所谓的。

刚刚好,我们使用布隆过滤器对录音文件名进行过滤,布隆过滤器返回true的时候,我们把这部分录音给丢弃掉,返回false的时候,这部分数据就入库。而布隆过滤器返回false的时候,说明这个数据是100%不存在的,满足我们的应用场景。

布隆过滤器的落地应用场景

过滤代码

package com.tml.mouseDemo.service;import lombok.extern.slf4j.Slf4j;
import org.redisson.api.RBloomFilter;
import org.redisson.api.RedissonClient;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.stereotype.Service;
import org.springframework.util.StringUtils;import javax.annotation.PostConstruct;
import java.time.Duration;/*** 分布式布隆过滤器的实现*/
@Service
@Slf4j
public class BloomFilterService {@Autowiredprivate RedissonClient redissonClient;private RBloomFilter bloomFilter;@PostConstructpublic void init() {//参数:布隆过滤器的名字bloomFilter = redissonClient.getBloomFilter("repeatAudioFileName");// 初始化布隆过滤器  预计数据量   误判率boolean b = bloomFilter.tryInit(50000L, 0.03);log.info("repeatAudioFileName bloomFilter tryInit :{}", b);}public boolean checkFileNameRepeat(String audioFileName) {if (!StringUtils.hasText(audioFileName)) {throw new NullPointerException("audioFileName is empty");}//通过setNx的原子操作,保证在多个布隆过滤器之间有一个平滑的过度boolean setIfAbsent = redissonClient.getBucket(audioFileName).setIfAbsent("1", Duration.ofHours(1));if (!setIfAbsent) {log.info("this file is repeat!");return true;}boolean contains = bloomFilter.contains(audioFileName);if (!contains) {boolean add = bloomFilter.add(audioFileName);log.info("checkFileNameRepeat not contain:{} add:{}", audioFileName, add);//添加失败,说明过滤器中已经存在这个元素了return !add;}return true;}}

代码说明

高并发处理 

contains()和add()是两个操作,在多线程并发条件下,需要结合这两个方法的返回值来综合判断,是不是布隆过滤器包含这个元素。

多个过滤器平滑切换

setIfAbsent()这个操作是一个更加严谨的操作,考虑到实际场景中是有多个布隆过滤器的,在第一个布隆过滤器和第二个布隆过滤器进行切换的时候,怎么做到平滑的切换呢?

比如,我们的应用场景中,每天都会创建一个布隆过滤器,而录音的数据是源源不断的推送过来的,但是我们录音数据有一个特点是,相同的录音的数据可能会多次推送,并且多次的最大间隔不会超过1小时

假设repeatAudioFileName-20240206这个过滤器中已经包含了某个录音文件A,刚刚好时间到了20230207这天,需要重新创建布隆过滤器,在repeatAudioFileName-20240207这个过滤器中,恰好又有相同的文件进来了需要判断,在新的过滤器中刚好没有这个文件,这个时候,又会将录音A文件入库,这个就是业务异常了。

优化后的方案如下

优化的方案的代码就是如上

对应的压测代码也发一下

    @Testpublic void testRedis() throws InterruptedException {int threadSize = 100;String fileName = "sagfdsfgewfgdsghf25870.mkv";long start = System.currentTimeMillis();CyclicBarrier cyclicBarrier = new CyclicBarrier(threadSize);CountDownLatch countDownLatch = new CountDownLatch(threadSize);for (int i = 0; i < threadSize; i++) {new Thread(() -> {try {cyclicBarrier.await();boolean b = bloomFilterService.checkFileNameRepeat(fileName);log.info("checkFileNameRepeat----------:{}", b);} catch (Exception e) {e.printStackTrace();} finally {countDownLatch.countDown();}}, "repeat_test_" + i).start();}countDownLatch.await();long end = System.currentTimeMillis();log.info("start:{}-- cost:{} ms", start, (end - start));}

分析总结

布隆过滤器有对应的优缺点,是不是使用你们的业务场景,需要想清楚。上面的案例中,之所以不用数据库的唯一约束,是因为我们使用了sharding-jdbc分库分表,相同的文件名的数据对应的订单id不一样,也不是在一个表中,不好控制。

顺便说一下,布隆过滤器的应用场景还是很广泛的,在以太坊ETH底层实现中,就用了布隆过滤器。

这篇关于RedissonClient妙用-分布式布隆过滤器的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/694185

相关文章

一文带你理解Python中import机制与importlib的妙用

《一文带你理解Python中import机制与importlib的妙用》在Python编程的世界里,import语句是开发者最常用的工具之一,它就像一把钥匙,打开了通往各种功能和库的大门,下面就跟随小... 目录一、python import机制概述1.1 import语句的基本用法1.2 模块缓存机制1.

java如何分布式锁实现和选型

《java如何分布式锁实现和选型》文章介绍了分布式锁的重要性以及在分布式系统中常见的问题和需求,它详细阐述了如何使用分布式锁来确保数据的一致性和系统的高可用性,文章还提供了基于数据库、Redis和Zo... 目录引言:分布式锁的重要性与分布式系统中的常见问题和需求分布式锁的重要性分布式系统中常见的问题和需求

Golang使用etcd构建分布式锁的示例分享

《Golang使用etcd构建分布式锁的示例分享》在本教程中,我们将学习如何使用Go和etcd构建分布式锁系统,分布式锁系统对于管理对分布式系统中共享资源的并发访问至关重要,它有助于维护一致性,防止竞... 目录引言环境准备新建Go项目实现加锁和解锁功能测试分布式锁重构实现失败重试总结引言我们将使用Go作

Redis分布式锁使用及说明

《Redis分布式锁使用及说明》本文总结了Redis和Zookeeper在高可用性和高一致性场景下的应用,并详细介绍了Redis的分布式锁实现方式,包括使用Lua脚本和续期机制,最后,提到了RedLo... 目录Redis分布式锁加锁方式怎么会解错锁?举个小案例吧解锁方式续期总结Redis分布式锁如果追求

Servlet中配置和使用过滤器的步骤记录

《Servlet中配置和使用过滤器的步骤记录》:本文主要介绍在Servlet中配置和使用过滤器的方法,包括创建过滤器类、配置过滤器以及在Web应用中使用过滤器等步骤,文中通过代码介绍的非常详细,需... 目录创建过滤器类配置过滤器使用过滤器总结在Servlet中配置和使用过滤器主要包括创建过滤器类、配置过滤

poj 3050 dfs + set的妙用

题意: 给一个5x5的矩阵,求由多少个由连续6个元素组成的不一样的字符的个数。 解析: dfs + set去重搞定。 代码: #include <iostream>#include <cstdio>#include <set>#include <cstdlib>#include <algorithm>#include <cstring>#include <cm

集中式版本控制与分布式版本控制——Git 学习笔记01

什么是版本控制 如果你用 Microsoft Word 写过东西,那你八成会有这样的经历: 想删除一段文字,又怕将来这段文字有用,怎么办呢?有一个办法,先把当前文件“另存为”一个文件,然后继续改,改到某个程度,再“另存为”一个文件。就这样改着、存着……最后你的 Word 文档变成了这样: 过了几天,你想找回被删除的文字,但是已经记不清保存在哪个文件了,只能挨个去找。真麻烦,眼睛都花了。看

开源分布式数据库中间件

转自:https://www.csdn.net/article/2015-07-16/2825228 MyCat:开源分布式数据库中间件 为什么需要MyCat? 虽然云计算时代,传统数据库存在着先天性的弊端,但是NoSQL数据库又无法将其替代。如果传统数据易于扩展,可切分,就可以避免单机(单库)的性能缺陷。 MyCat的目标就是:低成本地将现有的单机数据库和应用平滑迁移到“云”端

Redis中使用布隆过滤器解决缓存穿透问题

一、缓存穿透(失效)问题 缓存穿透是指查询一个一定不存在的数据,由于缓存中没有命中,会去数据库中查询,而数据库中也没有该数据,并且每次查询都不会命中缓存,从而每次请求都直接打到了数据库上,这会给数据库带来巨大压力。 二、布隆过滤器原理 布隆过滤器(Bloom Filter)是一种空间效率很高的随机数据结构,它利用多个不同的哈希函数将一个元素映射到一个位数组中的多个位置,并将这些位置的值置

laravel框架实现redis分布式集群原理

在app/config/database.php中配置如下: 'redis' => array('cluster' => true,'default' => array('host' => '172.21.107.247','port' => 6379,),'redis1' => array('host' => '172.21.107.248','port' => 6379,),) 其中cl