基于 Redis 的 HyperLogLog 实现了 UV 的统计

2024-08-29 01:04

本文主要是介绍基于 Redis 的 HyperLogLog 实现了 UV 的统计,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 前言
    • HyperLogLog 简介
    • HyperLogLog 的工作原理
    • 例子
    • 总结

前言

在现代网站开发中,用户行为分析是一个非常重要的环节。其中,UV(Unique Visitor,独立访客)PV(Page View,页面浏览量)是衡量网站流量用户活跃度的关键指标。UV 指的是通过互联网访问网站的自然人数量,通常一个用户在一定时间内的多次访问只计作一次;而 PV 则指的是用户访问网站的页面次数,无论是否来自同一用户,每次访问都会计入。

HyperLogLog 简介

HyperLogLog 是一种用于基数估计的概率性数据结构,可以高效地估算集合中唯一元素的数量(基数)。与传统的基数统计方法(如使用哈希集合)相比,HyperLogLog 能在使用极少内存的情况下提供相对高精度的基数估计。它特别适合在大数据和高并发的场景中使用,如网站的 UV(独立访客数)统计。

HyperLogLog 是一种高效的算法,用来估计集合中有多少个不同的元素

局限:

  • 误差:存在约 0.81% 的误差率,对于需要精确统计的场景不适用。
  • 不可取出原始数据:一旦元素被插入 HyperLogLog,就无法检索具体的元素,只能提供基数的估计。

HyperLogLog 的工作原理

哈希映射:HyperLogLog 使用哈希函数将每个输入元素转换成一个长整数(就像把名字转换成一个很长的号码),形成一串伪随机的二进制字符串。这样做的目的是为了确保所有元素被随机分布,而不是集中在某些地方。哈希函数的均匀性保证了每个元素有相同的概率被分配到任何一个位置。

前导零计数:对于每个哈希后的号码,HyperLogLog 会查看它的二进制表示(用 0 和 1 组成的串),并数出从左边开始有多少个连续的 0。前导零越多,说明这个元素在一个大范围内是很独特的。简单来说,前导零的数量间接反映了集合中有多少不同的元素。

分桶和调和平均:为了更准确地估计不同元素的数量,HyperLogLog 把这些哈希值分配到多个桶(想象成多个小盒子)。每个桶会记录它见到的哈希值中最多前导零的数量。然后,HyperLogLog 会用一种叫做“调和平均”的数学方法来综合所有桶的信息,从而估算出不同元素的总数。

误差控制:虽然 HyperLogLog 使用的是一种概率算法(不是完全精确),但它的误差率非常小,大约只有 0.81%。在大多数实际应用中,比如统计网站的独立访客数量(UV),这个误差是可以接受的。同时,相比于传统方法,HyperLogLog 只需要很少的内存,就可以处理非常多的数据。

例子

注解

@TrackPageView 注解可以加在控制器(Controller)的方法上,用于指定需要统计 PV 和 UV 的页面或模块。通过在 Controller 方法上使用这个注解,AOP 切面可以拦截请求,自动进行页面访问的统计。

@Target({ ElementType.PARAMETER, ElementType.METHOD })
@Retention(RetentionPolicy.RUNTIME)
@Documented
public @interface TrackPageView {String pageName() default ""; // 用于指定页面或模块的名称
}

切面类

@Component
@Aspect
public class SysAspect {@Autowiredprivate StatisticsService statisticsService;@Pointcut("@annotation(com.example.hac.annotation.TrackPageView)")private void pointcut() {}@Around("pointcut()")public Object around(ProceedingJoinPoint joinPoint) throws Throwable {// 继续执行原始方法Object result = joinPoint.proceed();// 获取切入点方法的签名MethodSignature signature = (MethodSignature) joinPoint.getSignature();Method method = signature.getMethod();// 从方法中获取 TrackPageView 注解TrackPageView trackPageView = method.getAnnotation(TrackPageView.class);if (trackPageView != null) {String userId = UserContext.getUser();String pageName = trackPageView.pageName(); // 获取注解中的页面名称// 记录 PV 和 UVstatisticsService.recordPageView(userId, pageName);}return result;}
}

redis统计

@Ser**加粗样式**vice
public class StatisticsService {@Autowiredprivate StringRedisTemplate redisTemplate;private static final String UV_KEY_PREFIX = "uv:";private static final String PV_KEY_PREFIX = "pv:";public void recordPageView(String userId, String pageName) {String pvKey = PV_KEY_PREFIX + pageName;String uvKey = UV_KEY_PREFIX + pageName;// 记录 PVredisTemplate.opsForValue().increment(pvKey, 1);// 记录 UV(使用 HyperLogLog 统计唯一用户)redisTemplate.opsForHyperLogLog().add(uvKey, userId);}public long getPageViews(String pageName) {String pvKey = PV_KEY_PREFIX + pageName;String pvCount = redisTemplate.opsForValue().get(pvKey);return pvCount != null ? Long.parseLong(pvCount) : 0;}public long getUniqueVisitors(String pageName) {String uvKey = UV_KEY_PREFIX + pageName;return redisTemplate.opsForHyperLogLog().size(uvKey);}
}

ps: 可以通过修改 Redis 的 key 来按时间单位(例如每天)统计数据。每天的数据可以定时同步到数据库中,以便持久化和后续分析。当需要查看历史统计数据时,可以直接从数据库中查询。

使用:

@RestController
@RequestMapping(value = "/api")
public class TestController {@Autowiredpublic TestService service;@TrackPageView(pageName = "home")@GetMapping(value = "/test")public int test() {return service.test();}
}

结果:
在这里插入图片描述

我登录访问了两次,所以pv为2,同一个用户,所以uv为1
在这里插入图片描述

总结

为了有效地统计网站的访问情况,我们可以使用 Redis 提供的 HyperLogLog 数据结构来统计 UV(独立访客数),并使用 Redis 的 String 类型来统计 PV(页面访问次数)。


这篇关于基于 Redis 的 HyperLogLog 实现了 UV 的统计的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1116402

相关文章

SpringBoot集成redisson实现延时队列教程

《SpringBoot集成redisson实现延时队列教程》文章介绍了使用Redisson实现延迟队列的完整步骤,包括依赖导入、Redis配置、工具类封装、业务枚举定义、执行器实现、Bean创建、消费... 目录1、先给项目导入Redisson依赖2、配置redis3、创建 RedissonConfig 配

Python的Darts库实现时间序列预测

《Python的Darts库实现时间序列预测》Darts一个集统计、机器学习与深度学习模型于一体的Python时间序列预测库,本文主要介绍了Python的Darts库实现时间序列预测,感兴趣的可以了解... 目录目录一、什么是 Darts?二、安装与基本配置安装 Darts导入基础模块三、时间序列数据结构与

Python使用FastAPI实现大文件分片上传与断点续传功能

《Python使用FastAPI实现大文件分片上传与断点续传功能》大文件直传常遇到超时、网络抖动失败、失败后只能重传的问题,分片上传+断点续传可以把大文件拆成若干小块逐个上传,并在中断后从已完成分片继... 目录一、接口设计二、服务端实现(FastAPI)2.1 运行环境2.2 目录结构建议2.3 serv

C#实现千万数据秒级导入的代码

《C#实现千万数据秒级导入的代码》在实际开发中excel导入很常见,现代社会中很容易遇到大数据处理业务,所以本文我就给大家分享一下千万数据秒级导入怎么实现,文中有详细的代码示例供大家参考,需要的朋友可... 目录前言一、数据存储二、处理逻辑优化前代码处理逻辑优化后的代码总结前言在实际开发中excel导入很

SpringBoot+RustFS 实现文件切片极速上传的实例代码

《SpringBoot+RustFS实现文件切片极速上传的实例代码》本文介绍利用SpringBoot和RustFS构建高性能文件切片上传系统,实现大文件秒传、断点续传和分片上传等功能,具有一定的参考... 目录一、为什么选择 RustFS + SpringBoot?二、环境准备与部署2.1 安装 RustF

Nginx部署HTTP/3的实现步骤

《Nginx部署HTTP/3的实现步骤》本文介绍了在Nginx中部署HTTP/3的详细步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录前提条件第一步:安装必要的依赖库第二步:获取并构建 BoringSSL第三步:获取 Nginx

MyBatis Plus实现时间字段自动填充的完整方案

《MyBatisPlus实现时间字段自动填充的完整方案》在日常开发中,我们经常需要记录数据的创建时间和更新时间,传统的做法是在每次插入或更新操作时手动设置这些时间字段,这种方式不仅繁琐,还容易遗漏,... 目录前言解决目标技术栈实现步骤1. 实体类注解配置2. 创建元数据处理器3. 服务层代码优化填充机制详

Python实现Excel批量样式修改器(附完整代码)

《Python实现Excel批量样式修改器(附完整代码)》这篇文章主要为大家详细介绍了如何使用Python实现一个Excel批量样式修改器,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一... 目录前言功能特性核心功能界面特性系统要求安装说明使用指南基本操作流程高级功能技术实现核心技术栈关键函

Java实现字节字符转bcd编码

《Java实现字节字符转bcd编码》BCD是一种将十进制数字编码为二进制的表示方式,常用于数字显示和存储,本文将介绍如何在Java中实现字节字符转BCD码的过程,需要的小伙伴可以了解下... 目录前言BCD码是什么Java实现字节转bcd编码方法补充总结前言BCD码(Binary-Coded Decima

Redis 的 SUBSCRIBE命令详解

《Redis的SUBSCRIBE命令详解》Redis的SUBSCRIBE命令用于订阅一个或多个频道,以便接收发送到这些频道的消息,本文给大家介绍Redis的SUBSCRIBE命令,感兴趣的朋友跟随... 目录基本语法工作原理示例消息格式相关命令python 示例Redis 的 SUBSCRIBE 命令用于订