简约的JAVA版本MapReduce和日常No.25

2024-05-15 08:48

本文主要是介绍简约的JAVA版本MapReduce和日常No.25,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

昨天做了一个小调查,说看看想看些啥。大概的分布是这样的,一个1代表一个投票。看来还是2、3比较多。


11111        希望看到"算法"回复1。 
111111111111 希望看到"技术细节"回复2。
111111111    希望看到"成长和读书"分享回复3。



还好多人说想看我长啥样,嘛,在我比较正经的时候,就长下面这样。


大图预警!!!!


0?wx_fmt=jpeg


日常呢,就长这样。


0?wx_fmt=jpeg


长这样。


0?wx_fmt=jpeg


好了切入正题,今天开始挖一个新坑,就是实现一些基于MapReduce的一些图算法,比如Pregel啊,PageRank啊,LPA啊,SLPA啊等等,坑很大,非常大,慢慢写吧,都不会讲非常难的理论问题,以代码细节为主。。


先上一个我思维拓展的时候写得java实现的MapReduce的基础版本吧,写得不是很好,我也在慢慢完善,Go语言版本的还在写,真是惭愧感觉一直在吃老本。


今天实现的一个内容是,将一个List<Integer>进行map操作变成另外一个List,然后通过reduce进行加和。


灵感来源来自于《MapReduce: Simplified Data Processing on Large Clusters 》这篇论文,大家可以看看我之前的文章,在了解完什么是Mapreduce。然后先去看看这篇论文,启发很多。


首先我们从两个接口入手,MapFunction和ReduceFunction,这是MapReduce的两个灵魂接口,由使用者去定义,这里我定义的都是最最简单的版本,暂时并没有进行泛化的能力。


MapFunction定义了一个接口,类型为V,然后通过一个叫map的方法,输出一个类型为V的值。


public interface MapFunction<V> {
V map(V target);
}

ReduceFunction定义了一个接口,类型为V,然后通过一个叫reduce的方法,通过聚合两个V类型的值,输出一个类型为V的值。

public interface ReduceFunction<V> {
V reduce(V A,V B);
}

上面两个方法定义了MapReduce的核心内容,就是任务切分和任务聚合。有小伙伴不理解这里为什么使用泛型,因为作为一个框架来说,我是不知道使用者想使用什么样的类型进行计算的(虽然这里我知道我接下来就要用Integer进行计算了),所以必须不能指定类型,否则这个框架就永远只能用Integer类型了。


那我们的map和reduce任务要跑在哪里呢?有小伙伴说跑在分布式环境里。对没错,最终目的是跑在分布式环境里。但是在这里,咱就偷个懒,先用多线程来模拟这个过程,并且使用内存来作为消息机制。


我是i5双核的CPU,经验值下面,只有两个cpu的话,创建4个线程对于性能来说比单线程好。(毕竟线程切换存在开销,控制得不好多线程肯定是比单线程慢的,不服来辩)

public class CPUs {
public static final int threads = 4;
private static final java.util.concurrent.ExecutorService pool = Executors.newFixedThreadPool(threads);

public static Future submit(Callable task){
return pool.submit(task);
}

public static void execute(Runnable task){
pool.execute(task);
}

public static void shutdown(){
pool.shutdown();
}
}

好了,MapFunction有了,CPUs也有了,接下来可以开始写提交器了。任务提交器是什么东西呢,就是把一个map任务进行切分,并且交给多个线程去异步执行,然后最终把结果汇总还给客户端的一个类。下面的类都比较大,建议在电脑端看。


这个类做了什么事呢?就是把List封装起来,然后把任务分发给多个线程去执行,使用CountDownLatch来保证所有的线程都已经完成计算,然后再把结果返回给客户端。


public class MapSubmitter<V> {
private List<V> target ;
private int length;

public MapSubmitter(List<V> target){
this.target = target;
this.length = target.size();
}
public  List<V> map(final MapFunction<V> mapFunction){
final CountDownLatch countDownLatch = new CountDownLatch(length);
final List<V> result = new ArrayList<V>();

for(int i = 0 ; i < length ; i++) {
final V current = target.get(i);
final int currentIndex = i;
try {
Future<V> future = CPUs.submit(new Callable<V>() {
public V call() throws Exception {
V result = mapFunction.map(current);
//Printer.println(currentIndex);
                       return result;
}
});

result.add(i,future.get());
countDownLatch.countDown();
}
catch (InterruptedException e) {
e.printStackTrace();
} catch (ExecutionException e) {
e.printStackTrace();
}
}
try{
countDownLatch.await();
} catch (InterruptedException e) {

}
finally {
return result;
}
}
}


这个类又做了什么事呢?List封装起来,交给很多线程去执行,然后维护一个最终的结果类V,并为这个结果提供线程安全的保护,避免因为多线程操作同一个结果造成结果错误。


public class ReduceSubmitter<V> {
private List<V> target ;
private int length;
private V  result ;
Lock lock = new ReentrantLock();
public ReduceSubmitter(List<V> target){
this.target = target;
this.length = target.size();
this.result = target.get(0);
}

public V reduce(final ReduceFunction<V> reduceFunction){

final CountDownLatch countDownLatch = new CountDownLatch(length);

countDownLatch.countDown();
for(int i = 1 ; i < length ; i ++) {
final V current = target.get(i);

CPUs.execute(new Runnable() {
public void run() {
lock.lock();
V next = reduceFunction.reduce(ReduceSubmitter.this.result,current);
ReduceSubmitter.this.result = next;
lock.unlock();
countDownLatch.countDown();
}
});
}
try{
countDownLatch.await();
} catch (InterruptedException e) {

}
finally {
return this.result;
}

}
}



好咯,写完了就开始测试了,主要就创建一个长度为10的数组,然后进行map操作把每一个值都进行平方,然后通过reduce操作进行求和,代码比较简单就不一一细说了,有啥问题后台留言交流。


public class TestMapReduce {
public static void main(String[] args){

//仅仅是为了耗时而模拟的一个好像很复杂的操作,不然太快了。
final int junkTime = 1000000;
//初始化一个想进行操作的数组
List<Integer> integerList = new ArrayList<Integer>();
for(int i = 0 ; i < 10 ; i++){
integerList.add(i);
}
int length = integerList.size();

// printer.printList(integerList);
       Long start = System.currentTimeMillis();

//进行map操作并返回结果
MapSubmitter<Integer> mapSubmitter = new MapSubmitter<Integer>(integerList);
integerList = mapSubmitter.map(new MapFunction<Integer>() {
public Integer map(Integer target) {
Double b = 0D;
for(int i = 0 ; i <junkTime;i++){
b += Math.exp(i);
}
return target * target;
}
});

Printer.println("mapreduce cost time:" + (System.currentTimeMillis() - start));

       start = System.currentTimeMillis();
        //进行reduce操作并返回结果
        ReduceSubmitter<Integer> reduceSubmitter = new ReduceSubmitter<Integer>(integerList);
Integer resultInteger = reduceSubmitter.reduce(new ReduceFunction<Integer>() {
public Integer reduce(Integer A, Integer B) {
Double b = 0D;
for(int i = 0 ; i <junkTime;i++){
b += Math.exp(i);
}
return A+B;
}
});
Printer.println("reduce cost time:" + (System.currentTimeMillis() - start));
   CPUs.shutdown();
}
}



好啦,今天的MapReduce就说到这里。经过我的实验,无论多少次实验,都是比单线程快那么一丢丢的,这都要得益于那个耗时的操作,模糊了线程切换带来的时间损耗,毕竟不怎么耗时的操作来说,单线程其实是绝对比多线程快的。


细心的同学会发现,好像这个并不符合论文里面的标准吖。嗯呐是的,这个只是我心血来潮写的简单版本。问题有诸如,我们上面的map操作好像不能变成其他类型吖,怎么实现WordCount呢?以及Driver好像没有进行任务切分和分发吖?好像也没有suffle操作啊?好像整个过程也不是严格多线程的吖,怎么办呢?下一次给大家分享一个更加完整的MapReduce。


希望大家都能在自己的机器上跑成功。源码都在上面了我就不放链接了。


好了,如果有任务问题请后台留言,我会看的。如果对您有一点点的帮助或者启发的话,帮忙转发或者点个赞都是对我很大的支持喔,么么哒。






赏一个呗。

0?wx_fmt=jpeg


这篇关于简约的JAVA版本MapReduce和日常No.25的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/991362

相关文章

Java的栈与队列实现代码解析

《Java的栈与队列实现代码解析》栈是常见的线性数据结构,栈的特点是以先进后出的形式,后进先出,先进后出,分为栈底和栈顶,栈应用于内存的分配,表达式求值,存储临时的数据和方法的调用等,本文给大家介绍J... 目录栈的概念(Stack)栈的实现代码队列(Queue)模拟实现队列(双链表实现)循环队列(循环数组

Java中Switch Case多个条件处理方法举例

《Java中SwitchCase多个条件处理方法举例》Java中switch语句用于根据变量值执行不同代码块,适用于多个条件的处理,:本文主要介绍Java中SwitchCase多个条件处理的相... 目录前言基本语法处理多个条件示例1:合并相同代码的多个case示例2:通过字符串合并多个case进阶用法使用

Java中的Lambda表达式及其应用小结

《Java中的Lambda表达式及其应用小结》Java中的Lambda表达式是一项极具创新性的特性,它使得Java代码更加简洁和高效,尤其是在集合操作和并行处理方面,:本文主要介绍Java中的La... 目录前言1. 什么是Lambda表达式?2. Lambda表达式的基本语法例子1:最简单的Lambda表

Java中Scanner的用法示例小结

《Java中Scanner的用法示例小结》有时候我们在编写代码的时候可能会使用输入和输出,那Java也有自己的输入和输出,今天我们来探究一下,对JavaScanner用法相关知识感兴趣的朋友一起看看吧... 目录前言一 输出二 输入Scanner的使用多组输入三 综合练习:猜数字游戏猜数字前言有时候我们在

Spring Security+JWT如何实现前后端分离权限控制

《SpringSecurity+JWT如何实现前后端分离权限控制》本篇将手把手教你用SpringSecurity+JWT搭建一套完整的登录认证与权限控制体系,具有很好的参考价值,希望对大家... 目录Spring Security+JWT实现前后端分离权限控制实战一、为什么要用 JWT?二、JWT 基本结构

java解析jwt中的payload的用法

《java解析jwt中的payload的用法》:本文主要介绍java解析jwt中的payload的用法,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Java解析jwt中的payload1. 使用 jjwt 库步骤 1:添加依赖步骤 2:解析 JWT2. 使用 N

springboot项目如何开启https服务

《springboot项目如何开启https服务》:本文主要介绍springboot项目如何开启https服务方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录springboot项目开启https服务1. 生成SSL证书密钥库使用keytool生成自签名证书将

Java实现优雅日期处理的方案详解

《Java实现优雅日期处理的方案详解》在我们的日常工作中,需要经常处理各种格式,各种类似的的日期或者时间,下面我们就来看看如何使用java处理这样的日期问题吧,感兴趣的小伙伴可以跟随小编一起学习一下... 目录前言一、日期的坑1.1 日期格式化陷阱1.2 时区转换二、优雅方案的进阶之路2.1 线程安全重构2

Java中的JSONObject详解

《Java中的JSONObject详解》:本文主要介绍Java中的JSONObject详解,需要的朋友可以参考下... Java中的jsONObject详解一、引言在Java开发中,处理JSON数据是一种常见的需求。JSONObject是处理JSON对象的一个非常有用的类,它提供了一系列的API来操作J

SpringBoot多数据源配置完整指南

《SpringBoot多数据源配置完整指南》在复杂的企业应用中,经常需要连接多个数据库,SpringBoot提供了灵活的多数据源配置方式,以下是详细的实现方案,需要的朋友可以参考下... 目录一、基础多数据源配置1. 添加依赖2. 配置多个数据源3. 配置数据源Bean二、JPA多数据源配置1. 配置主数据