区内排序

2024-02-12 18:30
文章标签 排序 区内

本文主要是介绍区内排序,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

示例:将统计结果按照手机号,以136、137、138、139开头的数据分别放到一个独立的文件中,其他开头的放到一个文件中,最终按照总流量内部排序。

待排数据

1863157985066   120.196.100.82 	2481    24681    200
1363157995033   120.197.40.4      264    0    200
1373157993055   120.196.100.99    132    1512    200
1393154400022   120.197.40.4      240    0    200
1363157993044   120.196.100.99    1527    2106    200
1397157993055   120.197.40.4      4116    1432    200
1463157993055   120.196.100.99    1116    954    200
1383157995033   120.197.40.4      3156    2936    200
1363157983019   120.196.100.82    240    0    200
1383154400022   120.197.40.4      6960    690    200
1363157973098   120.197.40.4      3659    3538    200
1373157993055   120.196.100.99    1938    180    200
1363154400022   120.196.100.99    918    4938    200
1393157993055   120.197.40.4      180    180    200
1363157984040   120.197.40.4      1938    2910    200
1383157995033   120.196.100.82    3008    3720    200
1363154400022   120.196.100.99    7335    110349    200
1373157993055   120.196.100.99    9531    2412    200
1363157990043   120.196.100.55    11058    48243    200
1383157993055   120.196.100.82    120    120    200
1323157985066   120.196.100.82    2481    24681    200
1393157993055   120.196.100.99    1116    954    200

期待结果

在这里插入图片描述

  • part-4-00000
    在这里插入图片描述
  • part-4-00001
    在这里插入图片描述
  • part-4-00002
    在这里插入图片描述
  • part-4-00003
    在这里插入图片描述
  • part-4-00004
    在这里插入图片描述

具体实现

第一步:自定义Bean:

public class FlowBean implements WritableComparable<FlowBean> {private String phoneNumber;//电话号码private long upFlow;//上行流量private long downFlow;//下行流量private long sumFlow;//总流量public String getPhoneNumber() {return phoneNumber;}public void setPhoneNumber(String phoneNumber) {this.phoneNumber = phoneNumber;}public long getUpFlow() {return upFlow;}public void setUpFlow(long upFlow) {this.upFlow = upFlow;}public long getDownFlow() {return downFlow;}public void setDownFlow(long downFlow) {this.downFlow = downFlow;}public long getSumFlow() {return sumFlow;}public void setSumFlow(long sumFlow) {this.sumFlow = sumFlow;}public FlowBean(String phoneNumber, long upFlow, long downFlow) {  //为了对象数据的初始化方便,加入一个带参的构造函数this.phoneNumber = phoneNumber;this.upFlow = upFlow;this.downFlow = downFlow;this.sumFlow = upFlow + downFlow;}public FlowBean() {    //在反序列化时候,反射机制需要调用空参的构造函数,所以定义了一个空参的构造函数}//重写toString()方法@Overridepublic String toString() {return "" + upFlow + "\t" + downFlow + "\t" + sumFlow + "";}@Overridepublic void readFields(DataInput in) throws IOException {    //从数据流中反序列出对象的数据phoneNumber = in.readUTF();upFlow = in.readLong();downFlow = in.readLong();sumFlow = in.readLong();}@Overridepublic void write(DataOutput out) throws IOException {    //将对象数据序列化到流中out.writeUTF(phoneNumber);out.writeLong(upFlow);out.writeLong(downFlow);out.writeLong(sumFlow);}@Overridepublic int compareTo(FlowBean o) {return (int) (o.getSumFlow() - this.getSumFlow());}
}

第二步:自定义Mapper

public class FlowMapper extends Mapper<LongWritable, Text, FlowBean, Text> {@Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {String line = value.toString();   //拿到一行数据String[] fields =  line.split("\\s+");  //切分成各个字段String phoneNumber = fields[0]; //拿到手机号的字段long upFlow = Long.parseLong(fields[2]);  //拿到上行流量字段long downFlow = Long.parseLong(fields[3]); //拿到下行流量字段//封装数据为key-value进行输出context.write(new FlowBean(phoneNumber, upFlow, downFlow),new Text(phoneNumber));}
}

第三步:自定义Partitioner

public class FlowPartitioner extends Partitioner<FlowBean, Text> {@Overridepublic int getPartition(FlowBean flowBean, Text text, int numPartitions) {String preNum = text.toString().substring(0, 3);//获取手机号码前三位int partition = 4;switch (preNum) { //根据手机号前置设置分区case "136":partition = 0;//必须从0开始break;case "137":partition = 1;break;case "138":partition = 2;break;case "139":partition = 3;break;default:break;}return partition;}
}

第四步:自定义Reducer

public class FlowReducer extends Reducer<FlowBean, Text, Text, FlowBean> {@Overrideprotected void reduce(FlowBean key, Iterable<Text> values, Context context) throws IOException, InterruptedException {for (Text value : values) {context.write(value, key);}}
}

第五步:自定义Driver

public class FlowDriver {public static void main(String[] args) throws Exception {// 数据输入路径和输出路径args = new String[2];args[0] = "src/main/resources/sort/feni";args[1] = "src/main/resources/sort/feno";Configuration cfg = new Configuration();// 读取配置文件//设置本地模式运行(即使项目类路径下core-site.xml文件,依然采用本地模式)cfg.set("mapreduce.framework.name", "local");cfg.set("fs.defaultFS", "file:///");Job job = Job.getInstance(cfg);// 新建一个任务job.setJarByClass(FlowDriver.class);  // 设置主类job.setInputFormatClass(TextInputFormat.class);//设置输入格式job.setOutputFormatClass(TextOutputFormat.class);//本job使用的mapper和reducerjob.setMapperClass(FlowMapper.class);   // Mapperjob.setReducerClass(FlowReducer.class); // Reducer//指定mapper输出数据的key-value类型job.setMapOutputKeyClass(FlowBean.class);job.setMapOutputValueClass(Text.class);//指定最终输出数据的key-value类型job.setOutputKeyClass(Text.class);job.setOutputValueClass(FlowBean.class);job.setPartitionerClass(FlowPartitioner.class);//设置自定义分区job.setNumReduceTasks(5);//设置ReduceTask个数FileInputFormat.addInputPath(job, new Path(args[0]));   // 输入路径FileOutputFormat.setOutputPath(job, new Path(args[1])); // 输出路径// 提交任务int res = job.waitForCompletion(true) ? 0 : 1;System.exit(res);}
}

这篇关于区内排序的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/703279

相关文章

大数据小内存排序问题如何巧妙解决

《大数据小内存排序问题如何巧妙解决》文章介绍了大数据小内存排序的三种方法:数据库排序、分治法和位图法,数据库排序简单但速度慢,对设备要求高;分治法高效但实现复杂;位图法可读性差,但存储空间受限... 目录三种方法:方法概要数据库排序(http://www.chinasem.cn对数据库设备要求较高)分治法(常

Python中lambda排序的六种方法

《Python中lambda排序的六种方法》本文主要介绍了Python中使用lambda函数进行排序的六种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们... 目录1.对单个变量进行排序2. 对多个变量进行排序3. 降序排列4. 单独降序1.对单个变量进行排序

关于Java内存访问重排序的研究

《关于Java内存访问重排序的研究》文章主要介绍了重排序现象及其在多线程编程中的影响,包括内存可见性问题和Java内存模型中对重排序的规则... 目录什么是重排序重排序图解重排序实验as-if-serial语义内存访问重排序与内存可见性内存访问重排序与Java内存模型重排序示意表内存屏障内存屏障示意表Int

【数据结构】——原来排序算法搞懂这些就行,轻松拿捏

前言:快速排序的实现最重要的是找基准值,下面让我们来了解如何实现找基准值 基准值的注释:在快排的过程中,每一次我们要取一个元素作为枢纽值,以这个数字来将序列划分为两部分。 在此我们采用三数取中法,也就是取左端、中间、右端三个数,然后进行排序,将中间数作为枢纽值。 快速排序实现主框架: //快速排序 void QuickSort(int* arr, int left, int rig

usaco 1.3 Mixing Milk (结构体排序 qsort) and hdu 2020(sort)

到了这题学会了结构体排序 于是回去修改了 1.2 milking cows 的算法~ 结构体排序核心: 1.结构体定义 struct Milk{int price;int milks;}milk[5000]; 2.自定义的比较函数,若返回值为正,qsort 函数判定a>b ;为负,a<b;为0,a==b; int milkcmp(const void *va,c

hdu 1285(拓扑排序)

题意: 给各个队间的胜负关系,让排名次,名词相同按从小到大排。 解析: 拓扑排序是应用于有向无回路图(Direct Acyclic Graph,简称DAG)上的一种排序方式,对一个有向无回路图进行拓扑排序后,所有的顶点形成一个序列,对所有边(u,v),满足u 在v 的前面。该序列说明了顶点表示的事件或状态发生的整体顺序。比较经典的是在工程活动上,某些工程完成后,另一些工程才能继续,此时

《数据结构(C语言版)第二版》第八章-排序(8.3-交换排序、8.4-选择排序)

8.3 交换排序 8.3.1 冒泡排序 【算法特点】 (1) 稳定排序。 (2) 可用于链式存储结构。 (3) 移动记录次数较多,算法平均时间性能比直接插入排序差。当初始记录无序,n较大时, 此算法不宜采用。 #include <stdio.h>#include <stdlib.h>#define MAXSIZE 26typedef int KeyType;typedef char In

【软考】希尔排序算法分析

目录 1. c代码2. 运行截图3. 运行解析 1. c代码 #include <stdio.h>#include <stdlib.h> void shellSort(int data[], int n){// 划分的数组,例如8个数则为[4, 2, 1]int *delta;int k;// i控制delta的轮次int i;// 临时变量,换值int temp;in

学习记录:js算法(二十八):删除排序链表中的重复元素、删除排序链表中的重复元素II

文章目录 删除排序链表中的重复元素我的思路解法一:循环解法二:递归 网上思路 删除排序链表中的重复元素 II我的思路网上思路 总结 删除排序链表中的重复元素 给定一个已排序的链表的头 head , 删除所有重复的元素,使每个元素只出现一次 。返回 已排序的链表 。 图一 图二 示例 1:(图一)输入:head = [1,1,2]输出:[1,2]示例 2:(图

鸡尾酒排序算法

目录 引言 一、概念 二、算法思想 三、图例解释 1.采用冒泡排序:   2.采用鸡尾酒排序:  3.对比总结 四、算法实现  1.代码实现  2.运行结果 3.代码解释   五、总结 引言 鸡尾酒排序(Cocktail Sort),也被称为双向冒泡排序,是一种改进的冒泡排序算法。它在冒泡排序的基础上进行了优化,通过双向遍历来减少排序时间。今天我们将学习如何在C