使用Java处理大数据避坑指南

2024-04-16 15:32

本文主要是介绍使用Java处理大数据避坑指南,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

视频地址 https://www.bilibili.com/video/BV1MZ4y1S741


最近接到一个任务:对一大批数据进行处理,先使用接口把数据拉取到本地,然后再写脚本进行处理,数据量大概有几百万,所以单线程就不满足了。

处理逻辑其实不重要,毕竟这个没有重用性,就单纯来说说这个多线程是如何来处理数据的,以及我在里面所踩的坑。


需要请求一个接口去拿数据,接口的参数有这三个pagepageSizeprojectId,你可以理解这个接口就是一个列表的接口

一个接口,只要请求参数对了,那么结果应该就没问题了。即便是还有问题,那其实也不重要了,我们只是调用方。

所以我把每个请求的参数存入数据库,通过判断这个请求参数,来判断我们请求的数据是否有问题。(这个是在我拉取数据失败N次想到的办法)

yxx_request表

CREATE TABLE `yxx_request` (`id` int(11) NOT NULL AUTO_INCREMENT COMMENT 'id',`page` varchar(10) COLLATE utf8mb4_unicode_ci NOT NULL,`page_size` varchar(10) COLLATE utf8mb4_unicode_ci NOT NULL,`project_id` varchar(50) COLLATE utf8mb4_unicode_ci DEFAULT NULL COMMENT '项目ID',`threadName` varchar(50) COLLATE utf8mb4_unicode_ci DEFAULT NULL,PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=50400 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci COMMENT='111';

下面就用代码模拟有50个不同的projectId,每个projectId下有50页数据。


一、单线程


伪代码如下:

public void xdxTestOne() {System.out.println("开始了......");final int pageCount = 50;List<String> projectIds = new ArrayList<>();for (int i = 0;i < 50; i++) {projectIds.add(UUID.randomUUID().toString());}HashMap params = new HashMap();params.put("pageSize", 100);for (String projectId : projectIds) {params.put("projectId", projectId);for (int i = 1; i <= pageCount; i++) {params.put("page", i);System.out.println(JSON.toJSONString(params));params.put("threadName", Thread.currentThread().getName());yxxBatchDataMapper.insertRequest(params);// TODO 通过接口去获取数据,然后存储到本地}}System.out.println("结束了......");
}

insertRequest

INSERT INTO yxx_request (page, page_size, project_id, threadName) 
VALUES (#{page}, #{pageSize}, #{projectId}, #{threadName})

上面的代码很简单,数据也没有任何问题,就不做展示了。


二、多线程


把上面的代码改造成多线程如下

public void xdxTestTwo() {System.out.println("开始了2......");final int pageCount = 50;List<String> projectIds = new ArrayList<>();for (int i = 0;i < 50; i++) {projectIds.add(UUID.randomUUID().toString());}HashMap params = new HashMap();params.put("pageSize", 100);ThreadPoolExecutor threadPoolExecutor = new ThreadPoolExecutor(15, 15, 0, TimeUnit.SECONDS, new LinkedBlockingQueue<>());for (String projectId : projectIds) {params.put("projectId", projectId);threadPoolExecutor.execute(() -> {for (int i = 1; i <= pageCount; i++) {params.put("page", i);System.out.println(JSON.toJSONString(params));params.put("threadName", Thread.currentThread().getName());yxxBatchDataMapper.insertRequest(params);}});}System.out.println("结束了2......");
}

ThreadPoolExecutor 是线程池,不熟悉的小伙伴可以先看看这个 Java线程池详解


大家可以想象一下上面代码执行的结果,判断一下这样的改造是否有问题呢?

当然,既然我如此的问,那一定是有问题的,首先我们看看数据量,通过上面的描述我们是要模拟 50*50 的请求,那应该是有 2500 条请求才对的。

在这里插入图片描述
首先这个数量就对不上了,正确的次数应该 2500

在这里插入图片描述
page , page_size,project_id, 这三个字段进行分组应该是唯一的,但现在却找到了多条数据

在这里插入图片描述

明显数据出了问题,这个问题,我排查了很久,其实这是多线程一个常见的问题:多线程共享一个变量,A线程改变了数据,但B线程还在使用, 解决的办法也很简单:把共享变量改成多例的

改造后的代码

public void xdxTestTwo() {System.out.println("开始了2......");final int pageCount = 50;List<String> projectIds = new ArrayList<>();for (int i = 0;i < 50; i++) {projectIds.add(UUID.randomUUID().toString());}ThreadPoolExecutor threadPoolExecutor = new ThreadPoolExecutor(15, 15, 0, TimeUnit.SECONDS, new LinkedBlockingQueue<>());for (String projectId : projectIds) {threadPoolExecutor.execute(() -> {HashMap params = new HashMap();params.put("pageSize", 100);params.put("projectId", projectId);for (int i = 1; i <= pageCount; i++) {params.put("page", i);System.out.println(JSON.toJSONString(params));params.put("threadName", Thread.currentThread().getName());yxxBatchDataMapper.insertRequest(params);}});}System.out.println("结束了2......");
}

三、问题

其实说白了这个问题的解决办法是很简单的,只是多线程共用了单例变量,但在写这些个代码还是遇到了很多的问题


3-1、如何启动运行

上面代码我们是写好了,怎么运行它呢?因为我们现在都是基于SpringBoot开发,我想大家应该也会和我一样,直接写一个controller,然后一个http请求就完事了。

这看似没有任何问题,但实际存在大问题,我最开始就是这样做的,然后数据库一直存在重复的数据(共享变量也是导致数据重复的原因之一),后面我在方法的第一行打印了一个日志,发现这个方法被请求了多次

使用postman和浏览器都是相同的结果,应该是http的重试机制导致的。

解决的办法也有两个

  • 一个是使用定时任务去执行
  • 一个是方法异步,调用成功直接返回结果 (推荐)

3-2、多线程共享变量

这个上面已经解释了


3-3、数据分页

字面意思,就是sql分页 LIMIT page, pageSize,但现在我们写代码都早已习惯了各种分页插件,没有自己去写过,下面就是我传递的page, pageSize

  • 1 500
  • 2 500
  • 3 500

正确的传参(还是在请教老大看出来的)

  • 0 500
  • 501 500
  • 1001 500

3-4、提升速度

  • 一般处理数据,可能会单独的去创建一些零时表,然后对这个表去进行增删改查操作,这时候我们经常会忘记给这个零时表加索引

  • 操作数据库能批量就批量,当然要注意数据量 500-1000条/次 还是ok的

  • 能在本地就在本地跑,一般我们自己的电脑都是16G+,服务器除非是线上,测试环境都很小,我在测试环境开50个线程就挂机了,在本地就不会。


3-N、其它

这里给处理数据的一些建议

  • 处理线上数据一定、一定、一定要备份
  • 先写出单线程,测试执行没问题了再改多线程(熟悉之后改起来很快)
  • 在处理数据的时候不知道会出现什么问题,最好给数据加一个标识,这样处理中断不至于从头开始

关注我吧,一起学习、一起成长

在这里插入图片描述

这篇关于使用Java处理大数据避坑指南的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/909184

相关文章

C语言中联合体union的使用

本文编辑整理自: http://bbs.chinaunix.net/forum.php?mod=viewthread&tid=179471 一、前言 “联合体”(union)与“结构体”(struct)有一些相似之处。但两者有本质上的不同。在结构体中,各成员有各自的内存空间, 一个结构变量的总长度是各成员长度之和。而在“联合”中,各成员共享一段内存空间, 一个联合变量

Java五子棋之坐标校正

上篇针对了Java项目中的解构思维,在这篇内容中我们不妨从整体项目中拆解拿出一个非常重要的五子棋逻辑实现:坐标校正,我们如何使漫无目的鼠标点击变得有序化和可控化呢? 目录 一、从鼠标监听到获取坐标 1.MouseListener和MouseAdapter 2.mousePressed方法 二、坐标校正的具体实现方法 1.关于fillOval方法 2.坐标获取 3.坐标转换 4.坐

Spring Cloud:构建分布式系统的利器

引言 在当今的云计算和微服务架构时代,构建高效、可靠的分布式系统成为软件开发的重要任务。Spring Cloud 提供了一套完整的解决方案,帮助开发者快速构建分布式系统中的一些常见模式(例如配置管理、服务发现、断路器等)。本文将探讨 Spring Cloud 的定义、核心组件、应用场景以及未来的发展趋势。 什么是 Spring Cloud Spring Cloud 是一个基于 Spring

Tolua使用笔记(上)

目录   1.准备工作 2.运行例子 01.HelloWorld:在C#中,创建和销毁Lua虚拟机 和 简单调用。 02.ScriptsFromFile:在C#中,对一个lua文件的执行调用 03.CallLuaFunction:在C#中,对lua函数的操作 04.AccessingLuaVariables:在C#中,对lua变量的操作 05.LuaCoroutine:在Lua中,

Javascript高级程序设计(第四版)--学习记录之变量、内存

原始值与引用值 原始值:简单的数据即基础数据类型,按值访问。 引用值:由多个值构成的对象即复杂数据类型,按引用访问。 动态属性 对于引用值而言,可以随时添加、修改和删除其属性和方法。 let person = new Object();person.name = 'Jason';person.age = 42;console.log(person.name,person.age);//'J

java8的新特性之一(Java Lambda表达式)

1:Java8的新特性 Lambda 表达式: 允许以更简洁的方式表示匿名函数(或称为闭包)。可以将Lambda表达式作为参数传递给方法或赋值给函数式接口类型的变量。 Stream API: 提供了一种处理集合数据的流式处理方式,支持函数式编程风格。 允许以声明性方式处理数据集合(如List、Set等)。提供了一系列操作,如map、filter、reduce等,以支持复杂的查询和转

Vim使用基础篇

本文内容大部分来自 vimtutor,自带的教程的总结。在终端输入vimtutor 即可进入教程。 先总结一下,然后再分别介绍正常模式,插入模式,和可视模式三种模式下的命令。 目录 看完以后的汇总 1.正常模式(Normal模式) 1.移动光标 2.删除 3.【:】输入符 4.撤销 5.替换 6.重复命令【. ; ,】 7.复制粘贴 8.缩进 2.插入模式 INSERT

Java面试八股之怎么通过Java程序判断JVM是32位还是64位

怎么通过Java程序判断JVM是32位还是64位 可以通过Java程序内部检查系统属性来判断当前运行的JVM是32位还是64位。以下是一个简单的方法: public class JvmBitCheck {public static void main(String[] args) {String arch = System.getProperty("os.arch");String dataM

详细分析Springmvc中的@ModelAttribute基本知识(附Demo)

目录 前言1. 注解用法1.1 方法参数1.2 方法1.3 类 2. 注解场景2.1 表单参数2.2 AJAX请求2.3 文件上传 3. 实战4. 总结 前言 将请求参数绑定到模型对象上,或者在请求处理之前添加模型属性 可以在方法参数、方法或者类上使用 一般适用这几种场景: 表单处理:通过 @ModelAttribute 将表单数据绑定到模型对象上预处理逻辑:在请求处理之前

eclipse运行springboot项目,找不到主类

解决办法尝试了很多种,下载sts压缩包行不通。最后解决办法如图: help--->Eclipse Marketplace--->Popular--->找到Spring Tools 3---->Installed。