脏数据清洗实践方案

2024-08-23 05:18

文章标签 数据实践方案清洗

本文主要是介绍脏数据清洗实践方案，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

一、概述
- 无论对于数据仓库/数据湖/数据中台，都会存在大量的脏数据，当我们在使用一张数据表时，发现其中出现大量的重复数据，活着其中的字段信息对应错误，原本ID：101 对应的name时YY，但实际存储的是XX，这种脏数据的场景就不举太多例子了肯定很常见。那么我来总结一个解决方案。
二、解决方案
- 现在有一张表t_1（按天分区全量），我们某一天发现t_1出现了概述中的提到的脏数据情况，那么我们大多数第一反应就是去找t_1_上游表，反馈给这个表的负责人（思路没问题）。但是当出现t_1_上游表不归属你负责，或者没办法修改的时候怎么办呢？还得保持业务数据继续？
- - 第一步、我们要做的就是及时止损，首先排查是不是可以在t_1中进行简单清理，比如说清洗或者去重（剩余的业务数据问题，不是当前视角侧不能修改的可以先放在，稍后会提到）；
  - 第二步、我们要保留t_1表，并且创建t_1_temp表（与t_1结构一样，暂时在t_1被修复前使用t_1_temp）；
  - 第三步、我们统一修改t_1下游表，为依赖t_1_temp（直在t_1被修复好为止）；
  - 第四步、我们生成t_1_badcase表(我们用此记录还剩多少条问题数据待解决)与t_1_待修正n（待修正表直接提供给上游表负责人或者相关业务的负责人，请求帮忙修复中间的错误数据），

这篇关于脏数据清洗实践方案的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1098456。 23002807@qq.com

相关文章

Java实现优雅日期处理的方案详解

Java实现优雅日期处理的方案详解

《Java实现优雅日期处理的方案详解》在我们的日常工作中,需要经常处理各种格式,各种类似的的日期或者时间,下面我们就来看看如何使用java处理这样的日期问题吧,感兴趣的小伙伴可以跟随小编一起学习一下... 目录前言一、日期的坑1.1 日期格式化陷阱1.2 时区转换二、优雅方案的进阶之路2.1 线程安全重构2

阅读更多...

SpringBoot使用GZIP压缩反回数据问题

SpringBoot使用GZIP压缩反回数据问题

《SpringBoot使用GZIP压缩反回数据问题》：本文主要介绍SpringBoot使用GZIP压缩反回数据问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录SpringBoot使用GZIP压缩反回数据1、初识gzip2、gzip是什么，可以干什么？3、Spr

阅读更多...

Java Optional的使用技巧与最佳实践

Java Optional的使用技巧与最佳实践

《JavaOptional的使用技巧与最佳实践》在Java中,Optional是用于优雅处理null的容器类,其核心目标是显式提醒开发者处理空值场景,避免NullPointerExce... 目录一、Optional 的核心用途二、使用技巧与最佳实践三、常见误区与反模式四、替代方案与扩展五、总结在 Java

阅读更多...

Spring Boot循环依赖原理、解决方案与最佳实践(全解析)

Spring Boot循环依赖原理、解决方案与最佳实践(全解析)

《SpringBoot循环依赖原理、解决方案与最佳实践(全解析)》循环依赖指两个或多个Bean相互直接或间接引用,形成闭环依赖关系,：本文主要介绍SpringBoot循环依赖原理、解决方案与最... 目录一、循环依赖的本质与危害1.1 什么是循环依赖？1.2 核心危害二、Spring的三级缓存机制2.1 三

阅读更多...

SpringBoot集成Milvus实现数据增删改查功能

SpringBoot集成Milvus实现数据增删改查功能

《SpringBoot集成Milvus实现数据增删改查功能》milvus支持的语言比较多,支持python,Java,Go,node等开发语言,本文主要介绍如何使用Java语言,采用springboo... 目录1、Milvus基本概念2、添加maven依赖3、配置yml文件4、创建MilvusClient

阅读更多...

SpringValidation数据校验之约束注解与分组校验方式

SpringValidation数据校验之约束注解与分组校验方式

《SpringValidation数据校验之约束注解与分组校验方式》本文将深入探讨SpringValidation的核心功能,帮助开发者掌握约束注解的使用技巧和分组校验的高级应用,从而构建更加健壮和可... 目录引言一、Spring Validation基础架构1.1 jsR-380标准与Spring整合1

阅读更多...

Python 中的 with open文件操作的最佳实践

Python 中的 with open文件操作的最佳实践

《Python中的withopen文件操作的最佳实践》在Python中,withopen()提供了一个简洁而安全的方式来处理文件操作,它不仅能确保文件在操作完成后自动关闭,还能处理文件操作中的异... 目录什么是 with open()？为什么使用 with open()？使用 with open() 进行

阅读更多...

MySQL 中查询 VARCHAR 类型 JSON 数据的问题记录

MySQL 中查询 VARCHAR 类型 JSON 数据的问题记录

《MySQL中查询VARCHAR类型JSON数据的问题记录》在数据库设计中,有时我们会将JSON数据存储在VARCHAR或TEXT类型字段中,本文将详细介绍如何在MySQL中有效查询存储为V... 目录一、问题背景二、mysql jsON 函数2.1 常用 JSON 函数三、查询示例3.1 基本查询3.2

阅读更多...

SpringBatch数据写入实现

SpringBatch数据写入实现

《SpringBatch数据写入实现》SpringBatch通过ItemWriter接口及其丰富的实现,提供了强大的数据写入能力,本文主要介绍了SpringBatch数据写入实现,具有一定的参考价值,... 目录python引言一、ItemWriter核心概念二、数据库写入实现三、文件写入实现四、多目标写入

阅读更多...

使用Python将JSON,XML和YAML数据写入Excel文件

使用Python将JSON,XML和YAML数据写入Excel文件

《使用Python将JSON,XML和YAML数据写入Excel文件》JSON、XML和YAML作为主流结构化数据格式,因其层次化表达能力和跨平台兼容性,已成为系统间数据交换的通用载体,本文将介绍如何... 目录如何使用python写入数据到Excel工作表用Python导入jsON数据到Excel工作表用

阅读更多...