hive数仓建立时间维表

2023-10-24 07:59
文章标签 时间 建立 数仓 hive 维表

本文主要是介绍hive数仓建立时间维表,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

    • 1.首先利用python中的datetime模块获取到我们想要的日期
    • 2.接着将获取到的日期加载到hdfs中
      • 1)建立存放日期的预处理表
      • 2)将数据导入预处理表中
    • 3.通过sql处理获得我们想要的维表
      • 1)新建时间维表
      • 2)sql处理并写入时间维表
      • 3)检验数据结果

1.首先利用python中的datetime模块获取到我们想要的日期

import datetime# 现在的时间
now=datetime.datetime.strptime('2019-01-01','%Y-%m-%d')# 递增的时间
delta = datetime.timedelta(days=1)
# 1000天后的时间
endnow = now + datetime.timedelta(days=1100)
# 1000天后的时间转换成字符串
endnow = str(endnow.strftime('%Y-%m-%d'))# 当日期增加到1000天后的日期,循环结束
while str(now.strftime('%Y-%m-%d')) != endnow:now += deltaprint(str(now.strftime('%Y-%m-%d')))

2.接着将获取到的日期加载到hdfs中

1)建立存放日期的预处理表

-- 放日期的维表
CREATE EXTERNAL TABLE IF NOT EXISTS tmp_super_date_wml_01
(dates                                 STRING COMMENT '日期'
)
COMMENT '时间维表预处理'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
STORED AS textfile
LOCATION '/user/hive/warehouse/zhidao.db/tmp_super_date_wml_01';

2)将数据导入预处理表中

a.可以看到我们的csv数据文件已经准备就绪
在这里插入图片描述
b.好啦!我们在hive的基础日期数据也已经准备就绪!在这里插入图片描述

3.通过sql处理获得我们想要的维表

1)新建时间维表

CREATE EXTERNAL TABLE IF NOT EXISTS dim_zhidao_time_info
(  
date_id                 BIGINT COMMENT '日期ID',
date_mid_desc           STRING COMMENT '中日期',
date_long_desc          STRING COMMENT '长日期',
year_id                 BIGINT COMMENT '年ID',                                    
year_desc               STRING COMMENT '年',             
month_id                STRING COMMENT '月ID',
month_long_desc         STRING COMMENT '长月',
weekday_cn              STRING COMMENT '周几(中文)',           
weekday_eg              STRING COMMENT '周几(英文)',   
week_id                 BIGINT COMMENT '周ID',
week_long_desc          STRING COMMENT 'yyyy年第w周',
daynumber_of_week       BIGINT COMMENT '本周的第几天',    
daynumber_of_year       BIGINT COMMENT '今年的第几天'    
)
COMMENT '时间维表'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
STORED AS orc
LOCATION '/user/hive/warehouse/zhidao.db/dim_zhidao_time_info';

2)sql处理并写入时间维表

INSERT OVERWRITE TABLE zhidao.dim_zhidao_time_info
SELECT
regexp_replace(dates,'-','') as date_id,
date(dates) as date_mid_desc,
from_unixtime(unix_timestamp(dates,'yyyy-MM-dd'),'yyyy年MM月dd日') as date_long_desc,
year(dates) as year_id,                                                                      -- 年
from_unixtime(unix_timestamp(dates,'yyyy-MM-dd'),'Y年') as year_desc,                  -- 年
from_unixtime(unix_timestamp(dates,'yyyy-MM-dd'),'yyyy-MM') as month_id,
from_unixtime(unix_timestamp(dates,'yyyy-MM-dd'),'yyyy年MM月') month_long_desc,
case when pmod(datediff(dates, '2012-01-01'), 7) = 0 then '星期日'when pmod(datediff(dates, '2012-01-01'), 7) = 1 then '星期一'when pmod(datediff(dates, '2012-01-01'), 7) = 2 then '星期二'when pmod(datediff(dates, '2012-01-01'), 7) = 3 then '星期三'when pmod(datediff(dates, '2012-01-01'), 7) = 4 then '星期四' when pmod(datediff(dates, '2012-01-01'), 7) = 5 then '星期五'when pmod(datediff(dates, '2012-01-01'), 7) = 6 then '星期六'else pmod(datediff(dates, '2012-01-01'), 7) end as weekday_cn,                 -- 周几(中文) 
from_unixtime(unix_timestamp(dates,'yyyy-MM-dd'),'EEEE') as weekday_eg,    -- 周几(英文)    
from_unixtime(unix_timestamp(dates,'yyyy-MM-dd'),'w') week_id,
from_unixtime(unix_timestamp(dates,'yyyy-MM-dd'),'yyyy年第w周') week_long_desc,
from_unixtime(unix_timestamp(dates,'yyyy-MM-dd'),'u') as daynumber_of_week,     -- 本周的第几天
from_unixtime(unix_timestamp(dates,'yyyy-MM-dd'),'D') as daynumber_of_year     -- 今年的第几天from zhidao.tmp_super_date_wml_01;

3)检验数据结果

在这里插入图片描述

这篇关于hive数仓建立时间维表的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/273808

相关文章

Java实现时间与字符串互相转换详解

《Java实现时间与字符串互相转换详解》这篇文章主要为大家详细介绍了Java中实现时间与字符串互相转换的相关方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、日期格式化为字符串(一)使用预定义格式(二)自定义格式二、字符串解析为日期(一)解析ISO格式字符串(二)解析自定义

Java时间轮调度算法的代码实现

《Java时间轮调度算法的代码实现》时间轮是一种高效的定时调度算法,主要用于管理延时任务或周期性任务,它通过一个环形数组(时间轮)和指针来实现,将大量定时任务分摊到固定的时间槽中,极大地降低了时间复杂... 目录1、简述2、时间轮的原理3. 时间轮的实现步骤3.1 定义时间槽3.2 定义时间轮3.3 使用时

Python如何获取域名的SSL证书信息和到期时间

《Python如何获取域名的SSL证书信息和到期时间》在当今互联网时代,SSL证书的重要性不言而喻,它不仅为用户提供了安全的连接,还能提高网站的搜索引擎排名,那我们怎么才能通过Python获取域名的S... 目录了解SSL证书的基本概念使用python库来抓取SSL证书信息安装必要的库编写获取SSL证书信息

MySQL 日期时间格式化函数 DATE_FORMAT() 的使用示例详解

《MySQL日期时间格式化函数DATE_FORMAT()的使用示例详解》`DATE_FORMAT()`是MySQL中用于格式化日期时间的函数,本文详细介绍了其语法、格式化字符串的含义以及常见日期... 目录一、DATE_FORMAT()语法二、格式化字符串详解三、常见日期时间格式组合四、业务场景五、总结一、

如何利用Java获取当天的开始和结束时间

《如何利用Java获取当天的开始和结束时间》:本文主要介绍如何使用Java8的LocalDate和LocalDateTime类获取指定日期的开始和结束时间,展示了如何通过这些类进行日期和时间的处... 目录前言1. Java日期时间API概述2. 获取当天的开始和结束时间代码解析运行结果3. 总结前言在J

修改若依框架Token的过期时间问题

《修改若依框架Token的过期时间问题》本文介绍了如何修改若依框架中Token的过期时间,通过修改`application.yml`文件中的配置来实现,默认单位为分钟,希望此经验对大家有所帮助,也欢迎... 目录修改若依框架Token的过期时间修改Token的过期时间关闭Token的过期时js间总结修改若依

Go Mongox轻松实现MongoDB的时间字段自动填充

《GoMongox轻松实现MongoDB的时间字段自动填充》这篇文章主要为大家详细介绍了Go语言如何使用mongox库,在插入和更新数据时自动填充时间字段,从而提升开发效率并减少重复代码,需要的可以... 目录前言时间字段填充规则Mongox 的安装使用 Mongox 进行插入操作使用 Mongox 进行更

java如何通过Kerberos认证方式连接hive

《java如何通过Kerberos认证方式连接hive》该文主要介绍了如何在数据源管理功能中适配不同数据源(如MySQL、PostgreSQL和Hive),特别是如何在SpringBoot3框架下通过... 目录Java实现Kerberos认证主要方法依赖示例续期连接hive遇到的问题分析解决方式扩展思考总

对postgresql日期和时间的比较

《对postgresql日期和时间的比较》文章介绍了在数据库中处理日期和时间类型时的一些注意事项,包括如何将字符串转换为日期或时间类型,以及在比较时自动转换的情况,作者建议在使用数据库时,根据具体情况... 目录PostgreSQL日期和时间比较DB里保存到时分秒,需要和年月日比较db里存储date或者ti

Python 标准库time时间的访问和转换问题小结

《Python标准库time时间的访问和转换问题小结》time模块为Python提供了处理时间和日期的多种功能,适用于多种与时间相关的场景,包括获取当前时间、格式化时间、暂停程序执行、计算程序运行时... 目录模块介绍使用场景主要类主要函数 - time()- sleep()- localtime()- g