hive实现手机上网流量和美国ncdc1991年到1992的各年的最高气温统计

本文主要是介绍hive实现手机上网流量和美国ncdc1991年到1992的各年的最高气温统计,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 一、手机上网流量统计

学了这么长的hive的最近打算统计一些hadoop权威指南的一个案例之前使用hadoop的MapReduce写的可以说是很难受了,现在用hive实现一遍,首先我们先实现一个简单的手机上网流量统计,如下是我们的数据是一个5万行的纯文本信息

 1,这里是用外机的notepad++打开的,我们使用xftp软件直接考到虚拟机的had用户目录下flowrec.txt

 2,进入hive里:

    我们先来分析:我们一共要建一个有5个字段的表,分别是 nid,ntime,phone,up(上传流量使用),down(下载流量使用),每个字段的以\t分隔,每行以\n分隔,里面没有复杂类型所以不需要对复杂类型切割,那么我们开始建表加数据了

 3,建表加数据

建表
create table mobile_c(
nid int,
ntime string,
phone string,
up int,
down int
)
row format delimited
fields terminated by "\t"
lines terminated by "\n"
stored as textfile;填数据
load data local inpath '/home/had/flowrec.txt' into table mobile;

4,当然就是写sql了

首先我们统计手机上网流量肯定要以手机号分组,然后对每个手机号的长传流量和下载流量进行求和就完事了,如果想看看那个手机号用的下载流量或者上传流量多可以进行排序1,select phone,sum(up) as up,sum(down) as down from mobile_c group by phone;2,select phone,sum(up) as up,sum(down) as down from mobile_c group by phone order by down或者up;

我这里是没有排序的结果(是不是很简单啊):

phone    up    down
13800138000    641903    51316183
13900139000    641351    51851138
14501006577    644965    51528781
17700234987    638369    51322483
18900234567    630317    50032125
 

2,美国气温统计最高气温

这个可以说不说很难,但这个数据看着就是很头大,因为他每行字段只有一个,而且我们还要寻找一些有价值的信息就很耽误时间了,尽管他只有几千行数据

 1,讨论一些怎么建表,我们要建立一个表中的字段只有一个,字段的分隔符就没有或者说指定一个当前字段没有的分隔符以免他切割有误,行的话还是\t,但我们需要在每个字段中找少年份和对应的气温,还有空气指标,在这里我就直接把他们的位置说出来,要是不信的话同志们也可以在上面图片一个个数,年份是在每个字段的16的位置,月份是20,天在22,气温在88的位置,空气指标在93的位置

2,建表加数据

建表:
create table ncdc(
data string
)
row format delimited
fields terminated by "\t"
lines terminated by "\n"加数据:
load data local inpath '/home/had/*.gz' into table ncdc;
hive他内部的文件编码器会自动识别,我们这里只gz文件

3,写sql语句

1,首先我们需要的信息都在一个字段中,所有我们采用hive内置的substr()函数来切割这个字段的数据,刚才我们已经说了我们所需要的数据 现在先将数据查询出来:
select substr(data,16,4) as year,substr(data,20,2) as month,substr(data,22,2) as day,substr(data,88,5),substr(data,93,1)from ncdc limit 100;
结果我就显示10行year	month	day	_c3	_c4
1901	01	01	-0078	1
1901	01	01	-0072	1
1901	01	01	-0094	1
1901	01	02	-0061	1
1901	01	02	-0056	1
1901	01	02	-0028	1
1901	01	03	-0067	1
1901	01	03	-0033	1
1901	01	03	-0028	1
1901	01	04	-0033	12,我们可以发现,他每天统计上次气温,应该是早中晚,但这个天气是不是看着不舒服,就是使用cast函数来转换类型
select substr(data,16,4) as year,substr(data,20,2) as month,substr(data,22,2) as day,cast(substr(data,88,5),int),substr(data,93,1)from ncdc limit 100;
year	month	day	_c3	_c4
1901	01	01	-78	1
1901	01	01	-72	1
1901	01	01	-94	1
1901	01	02	-61	1
1901	01	02	-56	1
1901	01	02	-28	1
1901	01	03	-67	1
1901	01	03	-33	1
1901	01	03	-28	1
1901	01	04	-33	1
这样是不是就清晰多了
3,但是在机器上有的数据是9999意味着他的气候不可定,所以我们索性把他去掉于是我们进一步修改我们的代码
select substr(data,16,4) as year,substr(data,20,2) as month,substr(data,22,2) as day,cast(substr(data,88,5)as int),substr(data,93,1)from ncdc where cast(substr(data,88,5) as int)!=9999 limit 100;
具体数据前10条还是原来的记录,但9999数据已经抹去,只是在这里不能体现而已
4,还有空气指标假如官方规定必须是01459,这个对于大家应该没什么难度我们可以使用in过滤也可以使用rlike函数进行正则表达式来过滤到最后面我会体现给大家
5,现在我们就开始最后的统计最高气温了只需要用年份来分组获取最大气温即可这里我们使用的是嵌套子查询
所有就直接省略掉月和天了
select a.year ,max(a.qw) from (select substr(data,16,4) year,cast(substr(data,88,5) as int) qw,substr(data,93,1) from ncdc  where cast(substr(data,88,5) as int)!=9999  and substr(data,93,1) rlike '[01459]' ) a group by a.year;
结果:
a.year	_c1
1902	244
1901	317
我们就成功的统计出来了

 

 

这篇关于hive实现手机上网流量和美国ncdc1991年到1992的各年的最高气温统计的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/670205

相关文章

C++对象布局及多态实现探索之内存布局(整理的很多链接)

本文通过观察对象的内存布局,跟踪函数调用的汇编代码。分析了C++对象内存的布局情况,虚函数的执行方式,以及虚继承,等等 文章链接:http://dev.yesky.com/254/2191254.shtml      论C/C++函数间动态内存的传递 (2005-07-30)   当你涉及到C/C++的核心编程的时候,你会无止境地与内存管理打交道。 文章链接:http://dev.yesky

通过SSH隧道实现通过远程服务器上外网

搭建隧道 autossh -M 0 -f -D 1080 -C -N user1@remotehost##验证隧道是否生效,查看1080端口是否启动netstat -tuln | grep 1080## 测试ssh 隧道是否生效curl -x socks5h://127.0.0.1:1080 -I http://www.github.com 将autossh 设置为服务,隧道开机启动

时序预测 | MATLAB实现LSTM时间序列未来多步预测-递归预测

时序预测 | MATLAB实现LSTM时间序列未来多步预测-递归预测 目录 时序预测 | MATLAB实现LSTM时间序列未来多步预测-递归预测基本介绍程序设计参考资料 基本介绍 MATLAB实现LSTM时间序列未来多步预测-递归预测。LSTM是一种含有LSTM区块(blocks)或其他的一种类神经网络,文献或其他资料中LSTM区块可能被描述成智能网络单元,因为

vue项目集成CanvasEditor实现Word在线编辑器

CanvasEditor实现Word在线编辑器 官网文档:https://hufe.club/canvas-editor-docs/guide/schema.html 源码地址:https://github.com/Hufe921/canvas-editor 前提声明: 由于CanvasEditor目前不支持vue、react 等框架开箱即用版,所以需要我们去Git下载源码,拿到其中两个主

android一键分享功能部分实现

为什么叫做部分实现呢,其实是我只实现一部分的分享。如新浪微博,那还有没去实现的是微信分享。还有一部分奇怪的问题:我QQ分享跟QQ空间的分享功能,我都没配置key那些都是原本集成就有的key也可以实现分享,谁清楚的麻烦详解下。 实现分享功能我们可以去www.mob.com这个网站集成。免费的,而且还有短信验证功能。等这分享研究完后就研究下短信验证功能。 开始实现步骤(新浪分享,以下是本人自己实现

基于Springboot + vue 的抗疫物质管理系统的设计与实现

目录 📚 前言 📑摘要 📑系统流程 📚 系统架构设计 📚 数据库设计 📚 系统功能的具体实现    💬 系统登录注册 系统登录 登录界面   用户添加  💬 抗疫列表展示模块     区域信息管理 添加物资详情 抗疫物资列表展示 抗疫物资申请 抗疫物资审核 ✒️ 源码实现 💖 源码获取 😁 联系方式 📚 前言 📑博客主页:

探索蓝牙协议的奥秘:用ESP32实现高质量蓝牙音频传输

蓝牙(Bluetooth)是一种短距离无线通信技术,广泛应用于各种电子设备之间的数据传输。自1994年由爱立信公司首次提出以来,蓝牙技术已经经历了多个版本的更新和改进。本文将详细介绍蓝牙协议,并通过一个具体的项目——使用ESP32实现蓝牙音频传输,来展示蓝牙协议的实际应用及其优点。 蓝牙协议概述 蓝牙协议栈 蓝牙协议栈是蓝牙技术的核心,定义了蓝牙设备之间如何进行通信。蓝牙协议

SQL Server中,查询数据库中有多少个表,以及数据库其余类型数据统计查询

sqlserver查询数据库中有多少个表 sql server 数表:select count(1) from sysobjects where xtype='U'数视图:select count(1) from sysobjects where xtype='V'数存储过程select count(1) from sysobjects where xtype='P' SE

python实现最简单循环神经网络(RNNs)

Recurrent Neural Networks(RNNs) 的模型: 上图中红色部分是输入向量。文本、单词、数据都是输入,在网络里都以向量的形式进行表示。 绿色部分是隐藏向量。是加工处理过程。 蓝色部分是输出向量。 python代码表示如下: rnn = RNN()y = rnn.step(x) # x为输入向量,y为输出向量 RNNs神经网络由神经元组成, python

利用Frp实现内网穿透(docker实现)

文章目录 1、WSL子系统配置2、腾讯云服务器安装frps2.1、创建配置文件2.2 、创建frps容器 3、WSL2子系统Centos服务器安装frpc服务3.1、安装docker3.2、创建配置文件3.3 、创建frpc容器 4、WSL2子系统Centos服务器安装nginx服务 环境配置:一台公网服务器(腾讯云)、一台笔记本电脑、WSL子系统涉及知识:docker、Frp