一行代码实现mysql建表语句格式化成hive建表语句

2024-04-26 19:44

本文主要是介绍一行代码实现mysql建表语句格式化成hive建表语句,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

写这篇文章的目的就是想浅浅记录下日常工作中的小成就

背景

因为我们公司的数据平台在抽数据的时候无法自动生成ODS层hive格式的建表语句,而业务库的一些表字段又非常多,手动+excel修改耗时耗力,于是想通过一个Python脚本自动将mysql格式的建表语句转换成hive格式的。

转换前:

CREATE TABLE `ai_warning_info` (`id` varchar(40) NOT NULL COMMENT '主键',`community_id` varchar(40) NOT NULL DEFAULT '' COMMENT '园区id',`ai_warning_config_id` int(11) NOT NULL COMMENT '预警信息配置表主键id',`warning_status` tinyint(4) NOT NULL DEFAULT '0' COMMENT '预警状态(1:待处理;2:已恢复;3:已处理(后台预警管理操作 直接处理/生成工单,则这条预警信息变成已处理))',`warning_content` varchar(500) NOT NULL DEFAULT '' COMMENT '预警内容',`warning_rank` tinyint(4) NOT NULL DEFAULT '0' COMMENT '预警级别(1:严重;2:重要;3:一般)',`warning_time` datetime DEFAULT NULL COMMENT '预警时间',`intime` datetime DEFAULT NULL COMMENT '写入时间',`update_time` datetime DEFAULT NULL COMMENT '更新时间',`remark` varchar(500) NOT NULL DEFAULT '' COMMENT '说明',`operate_type` tinyint(4) NOT NULL DEFAULT '0' COMMENT '预警处理方式1:直接处理;2:生成工单',`operate_user_id` varchar(45) NOT NULL DEFAULT '' COMMENT '预警信息处理人id',`operate_user_name` varchar(45) NOT NULL DEFAULT '' COMMENT '预警信息处理人name',`operate_time` datetime DEFAULT NULL COMMENT '预警信息处理时间',`order_id` varchar(40) DEFAULT '' COMMENT '工单id',`order_status` tinyint(4) NOT NULL DEFAULT '0' COMMENT '工单状态 0缺省 1待接收 2处理中 3已处理 4已完成 5已关闭 6待处理',`recovery_time` datetime DEFAULT NULL COMMENT '恢复时间',`warning_trigger_id` varchar(45) NOT NULL DEFAULT '' COMMENT '触发预警事件的记录id',`warning_type` tinyint(4) NOT NULL COMMENT '预警事件类型(1离园预警 2车辆违停 3消防通道占用)',`work_order_identity` int(10) DEFAULT NULL COMMENT '新旧工单标识字段 1:老工单,2:新工单',PRIMARY KEY (`id`) USING BTREE,UNIQUE KEY `id_UNIQUE` (`id`) USING BTREE
) ENGINE=InnoDB DEFAULT CHARSET=utf8 ROW_FORMAT=COMPACT COMMENT='ai预警信息';

转换后:

CREATE TABLE IF NOT EXISTS ods_wspace_ai_warning_info_df (id                             STRING COMMENT  '主键',community_id                   STRING COMMENT  ' COMMENT ',ai_warning_config_id           STRING COMMENT  '预警信息配置表主键id',warning_status                 STRING COMMENT  '预警状态(1:待处理;2:已恢复;3:已处理(后台预警管理操作 直接处理/生成工单,则这条预警信息变成已处理))',warning_content                STRING COMMENT  ' COMMENT ',warning_rank                   STRING COMMENT  '预警级别(1:严重;2:重要;3:一般)',warning_time                   STRING COMMENT  '预警时间',intime                         STRING COMMENT  '写入时间',update_time                    STRING COMMENT  '更新时间',remark                         STRING COMMENT  ' COMMENT ',operate_type                   STRING COMMENT  '预警处理方式1:直接处理;2:生成工单',operate_user_id                STRING COMMENT  ' COMMENT ',operate_user_name              STRING COMMENT  ' COMMENT ',operate_time                   STRING COMMENT  '预警信息处理时间',order_id                       STRING COMMENT  ' COMMENT ',order_status                   STRING COMMENT  '工单状态 0缺省 1待接收 2处理中 3已处理 4已完成 5已关闭 6待处理',recovery_time                  STRING COMMENT  '恢复时间',warning_trigger_id             STRING COMMENT  ' COMMENT ',warning_type                   STRING COMMENT  '预警事件类型(1离园预警 2车辆违停 3消防通道占用)',work_order_identity            STRING COMMENT  '新旧工单标识字段 1:老工单,2:新工单'
)
COMMENT 'ai预警信息'
PARTITIONED BY ( ds BIGINT )
STORED AS PARQUET;"

转换脚本是我让我小姐妹写的,她起初发给我的是这样的:

import os
import re
import tracebackimport pandas as pdpattern = r"[`']([^`']+)[`']"
tradition_ = 'COMMENT'
common_part = ' STRING COMMENT 'def modify_row(row):sql_row = row[0]if 'CREATE TABLE' in sql_row:return rowif 'COMMENT=' in sql_row:comment = sql_row.split('COMMENT=')[-1].replace(';', '').replace(' ', '')cut_sql = ')COMMENT ' + comment + ' PARTITIONED BY (As BIGINT) STORED AS PARQUET;'row[0] = cut_sqlreturn rowcut_result = re.findall(pattern, sql_row)if len(cut_result) > 1 and tradition_ in sql_row:cut_sql = cut_result[0] + common_part + f"'{cut_result[-1]}'" + ','row[0] = cut_sqlreturn rowcurrent_dir = os.getcwd()
to_dir = os.path.join(current_dir, "results_dir")
print('current_dir:', current_dir)
print('results_dir:', to_dir)
if not os.path.exists(to_dir):os.mkdir(to_dir)
try:for file in os.listdir(current_dir):if file.endswith(".xlsx") or file.endswith(".xls"):file_path = os.path.join(current_dir, file)to_file_path = os.path.join(to_dir, file)df = pd.read_excel(file_path)df.apply(modify_row, axis=1)df.to_csv(to_file_path, index=False)
except:print(traceback.format_exc())

还给我解释了一下,真的太有爱了,啊哈哈哈哈

不过这个转换完是下面这样:

CREATE TABLE `ai_warning_info` (
id STRING COMMENT '主键',
community_id STRING COMMENT ' COMMENT ',
ai_warning_config_id STRING COMMENT '预警信息配置表主键id',
warning_status STRING COMMENT '预警状态(1:待处理;2:已恢复;3:已处理(后台预警管理操作 直接处理/生成工单,则这条预警信息变成已处理))',
warning_content STRING COMMENT ' COMMENT ',
warning_rank STRING COMMENT '预警级别(1:严重;2:重要;3:一般)',
warning_time STRING COMMENT '预警时间',
intime STRING COMMENT '写入时间',
update_time STRING COMMENT '更新时间',
remark STRING COMMENT ' COMMENT ',
operate_type STRING COMMENT '预警处理方式1:直接处理;2:生成工单',
operate_user_id STRING COMMENT ' COMMENT ',
operate_user_name STRING COMMENT ' COMMENT ',
operate_time STRING COMMENT '预警信息处理时间',
order_id STRING COMMENT ' COMMENT ',
order_status STRING COMMENT '工单状态 0缺省 1待接收 2处理中 3已处理 4已完成 5已关闭 6待处理',
recovery_time STRING COMMENT '恢复时间',
warning_trigger_id STRING COMMENT ' COMMENT ',
warning_type STRING COMMENT '预警事件类型(1离园预警 2车辆违停 3消防通道占用)',
work_order_identity STRING COMMENT '新旧工单标识字段 1:老工单,2:新工单',PRIMARY KEY (`id`) USING BTREE,UNIQUE KEY `id_UNIQUE` (`id`) USING BTREE
)COMMENT 'ai预警信息' PARTITIONED BY (As BIGINT) STORED AS PARQUET;

然而。。。。

行吧 对齐看着也比较舒服

于是和姐妹吐槽,我在手动对齐

最后实在受不了了,改了姐妹的代码

对齐大概思路就是设置一个最大值减去字段长度再乘以空格,就可以对齐啦

顺便按照自己的需求又照猫画虎的改了下

import os
import re
import tracebackimport pandas as pdpattern = r"[`']([^`']+)[`']"
tradition_ = 'COMMENT'
common_part = ' STRING COMMENT '
#定义一个空字符
space=' 'def modify_row(row):sql_row = row[0]if 'CREATE TABLE' in sql_row:table = sql_row.split('`')[1]  # 顺便把ods规范表名也拼好cut_sql = 'CREATE TABLE IF NOT EXISTS ' + 'ods_wspace_'+table.replace(' ','') +'_df ('row[0] = cut_sql return row# 去掉不符合要求的语句行if 'USING BTREE' in sql_row:cut_sql =' 'row[0] = cut_sql return row# 因为公司同步都要求string 就方便很多 直接按字符串类型拼if 'COMMENT=' in sql_row:comment = sql_row.split('COMMENT=')[-1].replace(';', '').replace(' ', '')cut_sql = ')'+'\n'+'COMMENT ' + comment +'\n'+ 'PARTITIONED BY ( ds BIGINT )'+'\n'+'STORED AS PARQUET;'row[0] = cut_sqlreturn rowcut_result = re.findall(pattern, sql_row)# 通过字段长度 对齐语句 cut_len=len(cut_result[0])# print('cut_len:',cut_len)  if len(cut_result) > 1 and tradition_ in sql_row:cut_sql = 5*space+','+cut_result[0] +(30-cut_len)*space+common_part +space+ f"'{cut_result[-1]}'" row[0] = cut_sqlreturn rowcurrent_dir = os.getcwd()
to_dir = os.path.join(current_dir, "results_dir")
print('current_dir:', current_dir)
print('results_dir:', to_dir)
if not os.path.exists(to_dir):os.mkdir(to_dir)
try:for file in os.listdir(current_dir):if file.endswith(".xlsx") or file.endswith(".xls"):file_path = os.path.join(current_dir, file)to_file_path = os.path.join(to_dir, file)df = pd.read_excel(file_path)df.apply(modify_row, axis=1)df.to_csv(to_file_path, index=False)
except:print(traceback.format_exc())

姐妹说用pandas库 可能有bug 但她迟迟不帮我优化 反正我们一致认同能实现功能的代码就是好代码 哈哈哈哈哈 坐等她再帮我换个库写 反正 这段时间不用手敲建表语句了 开心开心

为啥说用一行代码实现呢,因为

命令行。。。 被骗了 我是标题党

后记

时隔一年没有跟新了 确实平常很躺平  工作中除了sql就是sql 很少学新的内容  就没有产出了 希望之后能多多更新文章吧 这篇就是一个好的开端   

by the way 今天是我入职满一年 下班下班 出去嗨喽

这篇关于一行代码实现mysql建表语句格式化成hive建表语句的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/938490

相关文章

SQL中的外键约束

外键约束用于表示两张表中的指标连接关系。外键约束的作用主要有以下三点: 1.确保子表中的某个字段(外键)只能引用父表中的有效记录2.主表中的列被删除时,子表中的关联列也会被删除3.主表中的列更新时,子表中的关联元素也会被更新 子表中的元素指向主表 以下是一个外键约束的实例展示

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

如何去写一手好SQL

MySQL性能 最大数据量 抛开数据量和并发数,谈性能都是耍流氓。MySQL没有限制单表最大记录数,它取决于操作系统对文件大小的限制。 《阿里巴巴Java开发手册》提出单表行数超过500万行或者单表容量超过2GB,才推荐分库分表。性能由综合因素决定,抛开业务复杂度,影响程度依次是硬件配置、MySQL配置、数据表设计、索引优化。500万这个值仅供参考,并非铁律。 博主曾经操作过超过4亿行数据

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

MySQL数据库宕机,启动不起来,教你一招搞定!

作者介绍:老苏,10余年DBA工作运维经验,擅长Oracle、MySQL、PG、Mongodb数据库运维(如安装迁移,性能优化、故障应急处理等)公众号:老苏畅谈运维欢迎关注本人公众号,更多精彩与您分享。 MySQL数据库宕机,数据页损坏问题,启动不起来,该如何排查和解决,本文将为你说明具体的排查过程。 查看MySQL error日志 查看 MySQL error日志,排查哪个表(表空间

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

活用c4d官方开发文档查询代码

当你问AI助手比如豆包,如何用python禁止掉xpresso标签时候,它会提示到 这时候要用到两个东西。https://developers.maxon.net/论坛搜索和开发文档 比如这里我就在官方找到正确的id描述 然后我就把参数标签换过来

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time