mysql 表 整理标签 是什么意思_一个看似纠结的MySQL标签需求的梳理

2023-10-09 13:10

本文主要是介绍mysql 表 整理标签 是什么意思_一个看似纠结的MySQL标签需求的梳理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

我们日常工作中总是会有一些看起来繁琐,吃力不讨好的事情,但是这些需求我们不能一概而论,为了落实规范而动用规范的大棒。

对我来说,我喜欢那种开放型的问题,比如看起来很繁琐无解,但是业务又迫切需要的事情。

比如业务同学今天提了一个问题:有一张表,数据量有600多万,而且数据实时的写入还挺多,记录的是一些工作的备注信息,比如客服同学接受了一个用户请求,然后会把这些信息记录下来,比如是关于哪个业务方向的,关于哪个游戏的等等,都当做一个字段信息存储起来。之前的管理是一种相对笼统的方式,在管理中会难以衡量和控制。 所以现在想使用类似标签的方式进行信息归类。

举个例子来说,客服同学之前处理了几个需求,假设记录的格式是这样的:

用户xxx咨询游戏A的登录问题。。。。。

用户xxx反馈游戏B的充值问题,反馈游戏C(可能错别字)的经验没有生效。。。

用户xxx反馈手机号登录游戏B(可能缩写)失败,而且充值有问题。。。

所以用户反馈的信息是没有严格的格式和规范,要对这些用户请求打上标签难度还是比较大的。

对一张600多万的大表进行业务整改,势必会有一些全流程的改变,首先业务同学给我们出了个难题,这个表的索引是比较多的,重建的过程远远超出了我们的预期,还好使用了pt-osc工具还算稳。

现在表的一个标签字段已经创建好了,就需要进行下一步的工作:打标签。

业务同学进行梳理和讨论,整理了大概12个种类的关键字,每个关键字会对应一个数字编码,也就是能够被识别业务标签。

array(

1 => '关键字1',

2 => '关键字2',

3 => '关键字3',

4 => '关键字4',

5 => '关键字5',

6 => '关键字6',

7 => '关键字7',

8 => '关键字8',

9 => '关键字9',

10 => '关键字10',

11 => '关键字11',

12 => '关键字12'

);

面对这么多的种类,难点来了,有些标签是有互斥关系的,有些是可能存在关键字重合的,比如“笔记本电脑”“台式电脑”这两个词是互斥的两种类型,而“笔记本”和“笔记本电脑”又是互斥的。

如果让业务部门去统计这么多的重合标签,估计会疯掉,因为按照一个粗略的计算,比如6个标签,4个重合的概率就是16+5+1=22种,如果是12类标签,那方案复杂度要高得多,至少得上百种。

最关键的,哪怕这些都梳理出来,根据评估需要变更的数据有70万,怎么高效的把70万数据都发布到线上,这是一个值得思考的问题。 整体的思路是:

1)线上的关键字模糊匹配工作要放到从库来执行。

2)从库端不光进行数据过滤,还需要进行一些数据的统计分析,进行去重和过滤

3)在经过需求确认后,把变更语句按照主键条件发布到线上

d6cba665eb41ff76608891457df5b4cb.png

对于标签的冲突关系梳理,我提出了改进的思路。

既然有12类标签,那么我们完全可以按照12个数据子集进行单独的关键字过滤,如果有一些标签是重合的,那么在12类标签过滤中势必会出现。

f04aa6d331cac12939cd68519586d5f6.png

面对这种多对多的映射,我们可以完全统计出这些多标签的比例来,如果占比不到0.1%,那么这些单据我们完全可以通过人工来判别,这样一来,99%以上的数据都可以自动完成,人工只需要进行判断很少的单据,避免我们的需求从开始就进入本末倒置的状态。

所以我按照单号(order_id,tag_name,tag_id)来进行数据抽取,很快就得到了12个数据子集,我们假设为dataset1-dataset12

然后我们把这些自己的数据写入一个共同的集合dataset中。

select order_id,count(*)from dataset group by order_id having count(*)>1就可以得到多标签的单据了。

而经过初步的统计,这个数据量级确实是很低的,5个重合标签的单据都是个位数,99%以上的单据都是单标签。

所以这一层关系确定之后,我们就可以考虑进行线上的数据部署优化了,而这也正是DBA要做的专业的事情。

如果变更语句有30万,那么我们构造出30万条SQL语句是成本比较高的。

我们可以把dataset的结果导入线上环境中,创建索引(order_id,tag_id)

然后分批次变更,尽可能避免半连接操作,根据实践的效果来看,每一步基本都控制在毫秒级完成。

这篇关于mysql 表 整理标签 是什么意思_一个看似纠结的MySQL标签需求的梳理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/173050

相关文章

MySQL 中的 CAST 函数详解及常见用法

《MySQL中的CAST函数详解及常见用法》CAST函数是MySQL中用于数据类型转换的重要函数,它允许你将一个值从一种数据类型转换为另一种数据类型,本文给大家介绍MySQL中的CAST... 目录mysql 中的 CAST 函数详解一、基本语法二、支持的数据类型三、常见用法示例1. 字符串转数字2. 数字

Mysql实现范围分区表(新增、删除、重组、查看)

《Mysql实现范围分区表(新增、删除、重组、查看)》MySQL分区表的四种类型(范围、哈希、列表、键值),主要介绍了范围分区的创建、查询、添加、删除及重组织操作,具有一定的参考价值,感兴趣的可以了解... 目录一、mysql分区表分类二、范围分区(Range Partitioning1、新建分区表:2、分

MySQL 定时新增分区的实现示例

《MySQL定时新增分区的实现示例》本文主要介绍了通过存储过程和定时任务实现MySQL分区的自动创建,解决大数据量下手动维护的繁琐问题,具有一定的参考价值,感兴趣的可以了解一下... mysql创建好分区之后,有时候会需要自动创建分区。比如,一些表数据量非常大,有些数据是热点数据,按照日期分区MululbU

SQL Server配置管理器无法打开的四种解决方法

《SQLServer配置管理器无法打开的四种解决方法》本文总结了SQLServer配置管理器无法打开的四种解决方法,文中通过图文示例介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录方法一:桌面图标进入方法二:运行窗口进入检查版本号对照表php方法三:查找文件路径方法四:检查 S

Spring IoC 容器的使用详解(最新整理)

《SpringIoC容器的使用详解(最新整理)》文章介绍了Spring框架中的应用分层思想与IoC容器原理,通过分层解耦业务逻辑、数据访问等模块,IoC容器利用@Component注解管理Bean... 目录1. 应用分层2. IoC 的介绍3. IoC 容器的使用3.1. bean 的存储3.2. 方法注

MySQL 删除数据详解(最新整理)

《MySQL删除数据详解(最新整理)》:本文主要介绍MySQL删除数据的相关知识,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录一、前言二、mysql 中的三种删除方式1.DELETE语句✅ 基本语法: 示例:2.TRUNCATE语句✅ 基本语

MySQL中查找重复值的实现

《MySQL中查找重复值的实现》查找重复值是一项常见需求,比如在数据清理、数据分析、数据质量检查等场景下,我们常常需要找出表中某列或多列的重复值,具有一定的参考价值,感兴趣的可以了解一下... 目录技术背景实现步骤方法一:使用GROUP BY和HAVING子句方法二:仅返回重复值方法三:返回完整记录方法四:

从入门到精通MySQL联合查询

《从入门到精通MySQL联合查询》:本文主要介绍从入门到精通MySQL联合查询,本文通过实例代码给大家介绍的非常详细,需要的朋友可以参考下... 目录摘要1. 多表联合查询时mysql内部原理2. 内连接3. 外连接4. 自连接5. 子查询6. 合并查询7. 插入查询结果摘要前面我们学习了数据库设计时要满

MySQL查询JSON数组字段包含特定字符串的方法

《MySQL查询JSON数组字段包含特定字符串的方法》在MySQL数据库中,当某个字段存储的是JSON数组,需要查询数组中包含特定字符串的记录时传统的LIKE语句无法直接使用,下面小编就为大家介绍两种... 目录问题背景解决方案对比1. 精确匹配方案(推荐)2. 模糊匹配方案参数化查询示例使用场景建议性能优

mysql表操作与查询功能详解

《mysql表操作与查询功能详解》本文系统讲解MySQL表操作与查询,涵盖创建、修改、复制表语法,基本查询结构及WHERE、GROUPBY等子句,本文结合实例代码给大家介绍的非常详细,感兴趣的朋友跟随... 目录01.表的操作1.1表操作概览1.2创建表1.3修改表1.4复制表02.基本查询操作2.1 SE