茄子快传数据分析(一)----数据清理

2024-02-28 00:40

本文主要是介绍茄子快传数据分析(一)----数据清理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

茄子快传原理

流程图:
这里写图片描述

数据

“events”: “1473367236143\u00010\u0001connectByQRCode\u0001\u00010\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u00011609072239570000027\u0001\n1473367261933\u00010\u0001AppLaunch\u0001\u00010\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u00011609072239570000028\u0001\n1473367280349\u00010\u0001connectByQRCode\u0001\u00010\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u00011609072239570000029\u0001\n1473367331326\u00010\u0001AppLaunch\u0001\u00010\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u00011609072239570000030\u0001\n1473367353310\u00010\u0001connectByQRCode\u0001\u00010\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u00011609072239570000031\u0001\n1473367387087\u00010\u0001AppLaunch\u0001\u00010\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u00011609072239570000032\u0001\n1473367402167\u00010\u0001connectByQRCode\u0001\u00010\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u00011609072239570000033\u0001\n1473367451994\u00010\u0001AppLaunch\u0001\u00010\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u00011609072239570000034\u0001\n1473367474316\u00010\u0001connectByQRCode\u0001\u00010\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u00011609072239570000035\u0001\n1473367564181\u00010\u0001AppLaunch\u0001\u00010\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u00011609072239570000036\u0001\n1473367589527\u00010\u0001connectByQRCode\u0001\u00010\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u00011609072239570000037\u0001\n1473367610310\u00010\u0001AppLaunch\u0001\u00010\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u00011609072239570000038\u0001\n1473367624647\u00010\u0001connectByQRCode\u0001\u00010\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u00011609072239570000039\u0001\n1473368004298\u00010\u0001AppLaunch\u0001\u00010\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u00011609072239570000040\u0001\n1473368017851\u00010\u0001connectByQRCode\u0001\u00010\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u00011609072239570000041\u0001\n1473369599067\u00010\u0001AppLaunch\u0001\u00010\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u00011609072239570000042\u0001\n1473369622274\u00010\u0001connectByQRCode\u0001\u00010\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u00011609072239570000043\u0001\n”,

数据解析

使用json在线解析器解析为:
“header”: {
“cid_sn”: “1501004207EE98AA”, sdn码
“mobile_data_type”: “”,
“os_ver”: “9”, 操作系统
“mac”: “88:1f:a1:03:7d:a8”, 物理地址
“resolution”: “2560x1337”, 分辨率
“commit_time”: “1473399829041”, 提交时间
“sdk_ver”: “103”, sdk版本
“device_id_type”: “mac”, 设备类型
“city”: “江门市”, 城市
“android_id”: “”, 安卓设备的安卓id
“device_model”: “MacBookPro11,1”,设备型号
“carrier”: “中国xx”, 运营商
“promotion_channel”: “1”, 推广渠道
“app_ver_name”: “1.7”, app版本号
“imei”: “”, 入网表示
“app_ver_code”: “23”, 公司内部版本码
“pid”: “pid”,
“net_type”: “3”, 网络类型
“device_id”: “m.88:1f:a1:03:7d:a8”, 设备ip
“app_device_id”: “m.88:1f:a1:03:7d:a8”,
“release_channel”: “appstore”, 发布渠道
“country”: “CN”,
“time_zone”: “28800000”, 时区编码
“os_name”: “ios”, 操作系统类型
“manufacture”: “apple”, 生产厂家
“commit_id”: “fde7ee2e48494b24bf3599771d7c2a78”, 事件标示
“app_token”: “XIAONIU_I”, app标示
“account”: “none”, 登陆账号
“app_id”: “com.appid.xiaoniu”, app组名
“build_num”: “YVF6R16303000403”, 编译号
“language”: “zh” 系统所使用语言
}
}

数据清理

1、 数据清理需求分析
release_channel,device_id,city,device_id_type,app_ver_name 这几个字段如果缺失,则过滤
将数据整成 字段,字段,字段,…… 这种形式
在每条数据中添加一个字段:user_id(值就是mac)
2、数据清理代码

public class AppLogClean {public static class MapTask extends Mapper<LongWritable, Text, Text, NullWritable> {StringBuilder sb = new StringBuilder();Text k = new Text();@Overrideprotected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, NullWritable>.Context context)throws IOException, InterruptedException {// 得到每行数据String line = value.toString();JSONObject ob1 = JSON.parseObject(line);JSONObject ob2 = ob1.getJSONObject("header");// 关键数据是否有丢失// release_channel,device_id,city,device_id_type,app_ver_name// 这几个字段如果缺失,则过滤if (StringUtils.isBlank(ob2.getString("release_channel")) || StringUtils.isBlank(ob2.getString("device_id"))|| StringUtils.isBlank(ob2.getString("city"))|| StringUtils.isBlank(ob2.getString("device_id_type"))|| StringUtils.isBlank(ob2.getString("app_ver_name"))|| StringUtils.isBlank(ob2.getString("os_name"))|| StringUtils.isBlank(ob2.getString("mac"))) {return;}if (ob2.getString("app_ver_name").equals("android")) {if (StringUtils.isBlank(ob2.getString("android_id"))) {return;}}sb.append(ob2.getString("cid_sn")).append(",");sb.append(ob2.getString("mobile_data_type")).append(",");sb.append(ob2.getString("os_ver")).append(",");sb.append(ob2.getString("mac")).append(",");sb.append(ob2.getString("resolution")).append(",");sb.append(ob2.getString("commit_time")).append(",");sb.append(ob2.getString("sdk_ver")).append(",");sb.append(ob2.getString("device_id_type")).append(",");sb.append(ob2.getString("city")).append(",");sb.append(ob2.getString("android_id")).append(",");sb.append(ob2.getString("device_model")).append(",");sb.append(ob2.getString("carrier")).append(",");sb.append(ob2.getString("promotion_channel")).append(",");sb.append(ob2.getString("app_ver_name")).append(",");sb.append(ob2.getString("imei")).append(",");sb.append(ob2.getString("app_ver_code")).append(",");sb.append(ob2.getString("pid")).append(",");sb.append(ob2.getString("net_type")).append(",");sb.append(ob2.getString("device_id")).append(",");sb.append(ob2.getString("app_device_id")).append(",");sb.append(ob2.getString("release_channel")).append(",");sb.append(ob2.getString("country")).append(",");sb.append(ob2.getString("time_zone")).append(",");sb.append(ob2.getString("os_name")).append(",");sb.append(ob2.getString("manufacture")).append(",");sb.append(ob2.getString("commit_id")).append(",");sb.append(ob2.getString("app_token")).append(",");sb.append(ob2.getString("account")).append(",");sb.append(ob2.getString("app_id")).append(",");sb.append(ob2.getString("build_num")).append(",");sb.append(ob2.getString("language")).append(",");String uid = ob2.getString("mac");//???sb.append(uid);k.set(sb.toString());context.write(k, NullWritable.get());//清除sb的数据sb.delete(0, sb.length());}}public static void main(String[] args) throws Exception {Configuration conf = new Configuration();Job job = Job.getInstance(conf);//设置map,设置driver,设置输出类型。。。job.setJarByClass(AppLogClean.class);job.setMapperClass(MapTask.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(NullWritable.class);FileInputFormat.addInputPath(job, new Path("D:\\a\\appuserdata\\input\\20170101"));FileOutputFormat.setOutputPath(job, new Path("D:\\a\\appuserdata\\out"));//不需要reduce 可以设置为0job.setNumReduceTasks(0);boolean ret = job.waitForCompletion(true);//System.exit(ret?0:1);System.out.println(ret?"你很优秀":"滚去调bug!");}
}

3、数据清理完的文件
这里写图片描述
4、清理完成的数据格式
1501004207EE98AA,,22,1c:77:f6:78:f5:75,1080x1920,1473396818952,103,mac,江门市,867830021735040,
字段与字段间以逗号隔开

这篇关于茄子快传数据分析(一)----数据清理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/754016

相关文章

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

Redis 中的热点键和数据倾斜示例详解

《Redis中的热点键和数据倾斜示例详解》热点键是指在Redis中被频繁访问的特定键,这些键由于其高访问频率,可能导致Redis服务器的性能问题,尤其是在高并发场景下,本文给大家介绍Redis中的热... 目录Redis 中的热点键和数据倾斜热点键(Hot Key)定义特点应对策略示例数据倾斜(Data S

Python实现将MySQL中所有表的数据都导出为CSV文件并压缩

《Python实现将MySQL中所有表的数据都导出为CSV文件并压缩》这篇文章主要为大家详细介绍了如何使用Python将MySQL数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到... python将mysql数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到另一个

SpringBoot整合jasypt实现重要数据加密

《SpringBoot整合jasypt实现重要数据加密》Jasypt是一个专注于简化Java加密操作的开源工具,:本文主要介绍详细介绍了如何使用jasypt实现重要数据加密,感兴趣的小伙伴可... 目录jasypt简介 jasypt的优点SpringBoot使用jasypt创建mapper接口配置文件加密

使用Python高效获取网络数据的操作指南

《使用Python高效获取网络数据的操作指南》网络爬虫是一种自动化程序,用于访问和提取网站上的数据,Python是进行网络爬虫开发的理想语言,拥有丰富的库和工具,使得编写和维护爬虫变得简单高效,本文将... 目录网络爬虫的基本概念常用库介绍安装库Requests和BeautifulSoup爬虫开发发送请求解

Oracle存储过程里操作BLOB的字节数据的办法

《Oracle存储过程里操作BLOB的字节数据的办法》该篇文章介绍了如何在Oracle存储过程中操作BLOB的字节数据,作者研究了如何获取BLOB的字节长度、如何使用DBMS_LOB包进行BLOB操作... 目录一、缘由二、办法2.1 基本操作2.2 DBMS_LOB包2.3 字节级操作与RAW数据类型2.