处理亿级数据的“定时任务”,如何缩短执行时间?

2023-11-30 14:38

本文主要是介绍处理亿级数据的“定时任务”,如何缩短执行时间?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

继续答水友提问。

问题抽象

(1)用户会员系统;

(2)用户会有分数流水,每个月要做一次分数统计,对不同分数等级的会员做不同业务处理;

 

数据假设

(1)假设用户在100w级别;

(2)假设用户日均1条流水,也就是说日增流水数据量在100W级别,月新增流水在3kW级别,3个月流水数据量在亿级别;

 

常见解决方案

用一个定时任务,每个月的第一天计算一次。

//(1)查询出所有用户

uids[] = select uid from t_user;

//(2)遍历每个用户

foreach $uid in uids[]{

         //(3)查询用户3个月内分数流水

         scores[]= select score from t_flow

                   where uid=$uid and time=[3个月内];

         //(4)遍历分数流水

         foreach $score in scores[]{

                   //(5)计算总分数

                   sum+= $score;

         }

         //(6)根据分数做业务处理

         switch(sum)

         升级降级,发优惠券,发奖励;

}

 

一个月执行一次的定时任务,会存在什么问题?

计算量很大,处理的数据量很大,耗时很久,按照水友的说法,需要1-2天。

画外音:外层循环100W级别用户;内层循环9kW级别流水;业务处理需要10几次数据库交互。

 

可不可以多线程并行处理?

可以,每个用户的流水处理不耦合。

 

改为多线程并行处理,例如按照用户拆分,会存在什么问题?

每个线程都要访问数据库做业务处理,数据库有可能扛不住。

 

这类问题的优化方向是:

(1)同一份数据,减少重复计算次数;

(2)分摊CPU计算时间,尽量分散处理,而不是集中处理;

(3)减少单次计算数据量;

 

如何减少同一份数据,重复计算次数?

如上图,假设每一个方格是1个月的分数流水数据(约3kW)。

 

3月底计算时,要查询并计算1月,2月,3月三个月的9kW数据;

4月底计算时,要查询并计算2月,3月,4月三个月的9kW数据;

 

会发现,2月和3月的数据(粉色部分),被重复查询和计算了多次。
画外音:该业务,每个月的数据会被计算3次。

 

新增月积分流水汇总表,每次只计算当月增量

flow_month_sum(month, uid, flow_sum)

(1)每到月底,只计算当月分数,数据量减少到1/3,耗时也减少到1/3;

(2)同时,把前2个月流水加和,就能得到最近3个月总分数(这个动作几乎不花时间);

画外音:该表的数量级和用户表数据量一致,100w级别。

 

这样一来,每条分数流水只会被计算一次。

 

如何分摊CPU计算时间,减少单次计算数据量呢?

业务需求是一个月重新计算一次分数,但一个月集中计算,数据量太大,耗时太久,可以将计算分摊到每天。

如上图,月积分流水汇总表,升级为,日积分流水汇总表。

把每月1次集中计算,分摊为30次分散计算,每次计算数据量减少到1/30,就只需要花几十分钟处理了。

甚至,每一个小时计算一次,每次计算数据量又能减少到1/24,每次就只需要花几分钟处理了。

 

虽然时间缩短了,但毕竟是定时任务,能不能实时计算分数流水呢?

每天只新增100w分数流水,完全可以实时累加计算“日积分流水汇总”。

使用DTS(或者canal)增加一个分数流水表的监听,当用户的分数变化时,实时进行日分数流水累加,将1小时一次的定时任务计算,均匀分摊到“每时每刻”,每天新增100w流水,数据库写压力每秒钟10多次,完全扛得住。

画外音:如果不能使用DTS/canal,可以使用MQ。

 

总结,对于这类一次性集中处理大量数据的定时任务,优化思路是:

(1)同一份数据,减少重复计算次数;

(2)分摊CPU计算时间,尽量分散处理(甚至可以实时),而不是集中处理;

(3)减少单次计算数据量;

 

希望大家有所启示,思路比结论重要。

欢迎大家继续提问,有问必答。

答球友问

《MQ如何实现平滑迁移?》

《30亿日志,检索+分页+后台展示》

《1000亿文本信息,高并发MD5查询,怎么弄?》

《用DB自增键生成uid了,还能分库吗?》

课后作业

假设,某系统登录日志(日志比数据库更难,数据库可以建索引检索)如下:

2019-08-15 23:11:15 uid=123 action=login

2019-08-15 23:11:18 uid=234 action=logout

求,2019-8-15这一天,系统同时在线用户数曲线,精确到秒。

 

说明:

(1)action只能为login/logout;

(2)在线用户的定义为,已经login,还没有logout,正在使用系统的用户;

(3)8-15之前登录,8-15还没有登出的用户,也算当天在线用户(潜台词是,只扫描当天的日志是不够的);

这篇关于处理亿级数据的“定时任务”,如何缩短执行时间?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/437415

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

服务器集群同步时间手记

1.时间服务器配置(必须root用户) (1)检查ntp是否安装 [root@node1 桌面]# rpm -qa|grep ntpntp-4.2.6p5-10.el6.centos.x86_64fontpackages-filesystem-1.41-1.1.el6.noarchntpdate-4.2.6p5-10.el6.centos.x86_64 (2)修改ntp配置文件 [r

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题:墙体两侧特征混淆误匹配,导致建图和定位偏差,表现为过门跳变、外月台走歪等 ·解决思路:预期的根治方案IGICP需要较长时间完成上线,先使用切分地图的工程化方案,即墙体两侧切分为不同地图,在某一侧只使用该侧地图进行定位 方案思路 切分原理:切分地图基于关键帧位置,而非点云。 理论基础:光照是直线的,一帧点云必定只能照射到墙的一侧,无法同时照到两侧实践考虑:关

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time