数据治理之考评指标类

2023-11-23 01:44

文章标签 数据指标治理考评

本文主要是介绍数据治理之考评指标类，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

正则表达式

[] 表述一个字符应该是什么样子
- [abc] 表示一个字符可以是a\b\c
- [a-z] 表示所有小写
- [a-zA-Z]所有大小写
- [ a-zA-Z0-9_ ] 所有大小写字母及数字和下划线 -> \w
- [0-9] \d
- \s 空格
- . 表示任意字符
{} 表示有多少个这样的字符
- [a-z]{1,10}最少有一个，最多有10个
- [a-z]{,10}最多10个
- [a-z]{2,}至少2个
- {1,} -> + 至少一个可以用+代替
- {0,1} -> ? 最多一个
- {,} -> * 多少个都行，可以没有
- .* 表示任意字符有任意多个
（）修饰可以是一个什么样的词组
- （zhang3 | li4）可以是zhang3或者li4
^ 表示以什么开头
- [^] 表示非
- $ 表示以什么结尾

在这里插入图片描述

代码使用

public static void main(String[] args){String email = "windyzj@qq.com";Pattern emailPattern = Pattern.compile("正则");Matcher matcher = emailPttern.matcher(email);if(matcher.matches()){sout("符合规范");}else{sout("不符合规范 ");}
}

时间复杂度

O(1) : 根据key从map中查询，从set中查询某个值是否存在

集合转换

可以使用.stream().

指标类之读写访问权限检查

文件目录是否超过建议权限
指标code: FILE_ACCESS_PERMISION
领域：SECURITY
建议权限：
- 目录权限：755
- 文件权限：644
处理步骤：
- 提取相关元数据
- 准备递归遍历
  - 递归工具 FileSystem
  - 递归起点一级子目录
  - 递归的容器收集所有超过权限的文件、目录，位置
  - 判断权限的参数 perssion
- 递归执行
  - 循环起点目录
  - 如果是中间节点（目录）：采集处理，张开下一层次，递归回调自己
  - 如果是叶子节点（文件）：采集处理，权限检查
- 根据结果容器进行评价：如果容器有内容，差评，填写问题位置

考评领域划分

calc 计算
quality安全
spec 规范
storage存储

mysql相关命令

启动sudo systemctl restart mysqld
配置文件 /etc/my.cnf
日志： /var/lib/mysqld.log
如果执行启动脚本出错：sudo journalctl -xe

表产出数据监控

先判断为日分区表
当日产出的数据量，超过前x天产出量{upper_limit}%, 或低于{lower_limit}%
当日分区的数据量 / 前n天平均值
表目录/ dt , 递归累加计算

Dolphinscheduler面向数据治理

不要每层一个节点，而是每个表一个节点
ds中的sql节点实际上是使用jdbc方式的方式执行SQL，需要使用hiveserver2，但是hiveserver2在大数据量时非常不稳定
由于经过hiveserver2，会丢失掉yarn_id
而做数据治理时，yarn_id是用来找到对应任务日志的唯一标识
ds.3 bug比较多，功能也较多，3.x版本不采集yarn_id，需要改源码重新编译
如何根据表名查询该表对应的流程节点，把节点名命名为库名+表名

要从DS中获取哪些东西

任务定义：获得SQL，总共一份。在表t_ds_task_definition
任务运行状况（每天一份）：在表 t_ds_task_instance
- 是否运行成功 state 成功是7，失败是6
- 耗时： end_time - submit_time
- yarn_id 用于提取日志 app_link

这篇关于数据治理之考评指标类的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/414428。 23002807@qq.com

相关文章

MyBatis-Plus通用中等、大量数据分批查询和处理方法

MyBatis-Plus通用中等、大量数据分批查询和处理方法

《MyBatis-Plus通用中等、大量数据分批查询和处理方法》文章介绍MyBatis-Plus分页查询处理,通过函数式接口与Lambda表达式实现通用逻辑,方法抽象但功能强大,建议扩展分批处理及流式... 目录函数式接口获取分页数据接口数据处理接口通用逻辑工具类使用方法简单查询自定义查询方法总结函数式接口

阅读更多...

SQL中如何添加数据(常见方法及示例)

SQL中如何添加数据(常见方法及示例)

《SQL中如何添加数据(常见方法及示例)》SQL全称为StructuredQueryLanguage,是一种用于管理关系数据库的标准编程语言,下面给大家介绍SQL中如何添加数据,感兴趣的朋友一起看看吧... 目录在mysql中，有多种方法可以添加数据。以下是一些常见的方法及其示例。1. 使用INSERT I

阅读更多...

Python使用vllm处理多模态数据的预处理技巧

Python使用vllm处理多模态数据的预处理技巧

《Python使用vllm处理多模态数据的预处理技巧》本文深入探讨了在Python环境下使用vLLM处理多模态数据的预处理技巧,我们将从基础概念出发,详细讲解文本、图像、音频等多模态数据的预处理方法,... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

阅读更多...

MySQL 删除数据详解(最新整理)

MySQL 删除数据详解(最新整理)

《MySQL删除数据详解(最新整理)》：本文主要介绍MySQL删除数据的相关知识,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录一、前言二、mysql 中的三种删除方式1.DELETE语句✅ 基本语法：示例：2.TRUNCATE语句✅ 基本语

阅读更多...

解读GC日志中的各项指标用法

解读GC日志中的各项指标用法

《解读GC日志中的各项指标用法》：本文主要介绍GC日志中的各项指标用法,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、基础 GC 日志格式（以 G1 为例）1. Minor GC 日志2. Full GC 日志二、关键指标解析1. GC 类型与触发原因2. 堆

阅读更多...

MyBatisPlus如何优化千万级数据的CRUD

MyBatisPlus如何优化千万级数据的CRUD

《MyBatisPlus如何优化千万级数据的CRUD》最近负责的一个项目,数据库表量级破千万,每次执行CRUD都像走钢丝,稍有不慎就引起数据库报警,本文就结合这个项目的实战经验,聊聊MyBatisPl... 目录背景一、MyBATis Plus 简介二、千万级数据的挑战三、优化 CRUD 的关键策略1. 查

阅读更多...

python实现对数据公钥加密与私钥解密

python实现对数据公钥加密与私钥解密

《python实现对数据公钥加密与私钥解密》这篇文章主要为大家详细介绍了如何使用python实现对数据公钥加密与私钥解密,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录公钥私钥的生成使用公钥加密使用私钥解密公钥私钥的生成这一部分，使用python生成公钥与私钥，然后保存在两个文

阅读更多...

mysql中的数据目录用法及说明

mysql中的数据目录用法及说明

《mysql中的数据目录用法及说明》：本文主要介绍mysql中的数据目录用法及说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、背景2、版本3、数据目录4、总结1、背景安装mysql之后，在安装目录下会有一个data目录，我们创建的数据库、创建的表、插入的

阅读更多...

Navicat数据表的数据添加,删除及使用sql完成数据的添加过程

Navicat数据表的数据添加,删除及使用sql完成数据的添加过程

《Navicat数据表的数据添加,删除及使用sql完成数据的添加过程》：本文主要介绍Navicat数据表的数据添加,删除及使用sql完成数据的添加过程,具有很好的参考价值,希望对大家有所帮助,如有... 目录Navicat数据表数据添加,删除及使用sql完成数据添加选中操作的表则出现如下界面，查看左下角从左

阅读更多...

SpringBoot中4种数据水平分片策略

SpringBoot中4种数据水平分片策略

《SpringBoot中4种数据水平分片策略》数据水平分片作为一种水平扩展策略,通过将数据分散到多个物理节点上,有效解决了存储容量和性能瓶颈问题,下面小编就来和大家分享4种数据分片策略吧... 目录一、前言二、哈希分片2.1 原理2.2 SpringBoot实现2.3 优缺点分析2.4 适用场景三、范围分片

阅读更多...