数据仓库: 4- 数据质量管理 5- 元数据管理

2024-08-24 20:36

本文主要是介绍数据仓库: 4- 数据质量管理 5- 元数据管理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

    • 4- 数据质量管理
      • 4.1 数据清洗
        • 4.1.1 数据清洗的重要性
        • 4.1.2 数据清洗常见的问题
        • 4.1.3 数据清洗的步骤
          • 4.1.3.1 数据质量评估:
          • 4.1.3.2 制定清洗规则:
          • 4.1.3.3 执行清洗操作:
          • 4.1.3.4 验证清洗结果:
          • 4.1.3.5 迭代优化:
        • 4.1.4 数据清洗的常用方法
        • 4.1.5 数据清洗的最佳实践
        • 4.1.6 总结
      • 4.2 数据一致性检查
        • 4.2.1 数据一致性的定义
        • 4.2.2 数据一致性的重要性
        • 4.2.3 数据一致性检查的类型
        • 4.2.4 数据一致性检查的方法
        • 4.2.5 数据一致性检查的关键领域
        • 4.2.6 实施一致性检查的步骤
        • 4.2.7 数据一致性检查的工具和技术
        • 4.2.8 数据一致性检查的挑战
        • 4.2.9 数据一致性检查的最佳实践
        • 4.2.10 新兴趋势
        • 4.2.11 总结
      • 4.3 数据质量度量
        • 4.3.1 数据质量度量的维度
        • 4.3.2 数据质量度量指标
        • 4.3.3 数据质量度量方法
        • 4.3.4 数据质量度量报告
        • 4.3.5 数据质量度量最佳实践
        • 4.3.6 总结
    • 5- 元数据管理
      • 5.1 业务元数据
        • 5.1.1 定义
        • 5.1.2 主要内容
        • 5.1.3 管理工具
      • 5.2 技术元数据
        • 5.2.1 定义
        • 5.2.2 主要内容
        • 5.2.3 管理工具
      • 5.3 元数据管理工具
        • 5.3.1 定义
        • 5.3.2 主要功能
        • 5.3.3 常用工具
      • 5.4 总结

4- 数据质量管理

4.1 数据清洗

数据清洗是数据仓库数据质量管理中至关重要的一环, 目标是识别并纠正数据中的错误、缺失、不一致和冗余等问题, 以提高数据质量, 确保数据仓库中的数据准确、完整、一致及时且有效 ; 它通常发生在 ETL 过程的转换 (Transform) 阶段 ;

4.1.1 数据清洗的重要性

数据仓库中的数据来源于多个不同的业务系统, 这些系统的数据格式、质量标准和业务规则可能存在差异, 导致数据仓库中的数据存在各种质量问题 ;

如果不进行有效的数据清洗, 这些问题会直接影响到数据分析结果的准确性和可靠性, 最终影响业务决策 ;

4.1.2 数据清洗常见的问题
  • 缺失值: 数据字段缺少值, 例如客户信息表中缺少联系方式 ;
  • 重复值: 数据集中存在完全相同或部分相同的记录, 例如同一个客户存在多条记录 ;
  • 异常值: 数据值不符合逻辑或业务规则, 例如年龄字段出现负值 ;
  • 不一致性: 数据格式、单位、编码等不统一, 例如日期格式不一致, 导致数据难以整合和分析 ;
4.1.3 数据清洗的步骤
4.1.3.1 数据质量评估:
  • 目标: 全面了解数据质量现在, 识别数据中存在的问题 ;
  • 方法: 使用数据质量分析工具、SQL查询、数据可视化等方法, 分析数据完整性、一致性、准确性、有效性等方面 ;
4.1.3.2 制定清洗规则:
  • 目标: 根据数据质量评估结果和业务需求, 制定针对性的数据清洗规则 ;
  • 内容: 明确如何处理缺失值 (填充、删除、算法预测)、如何识别和合并重复记录、如何识别和纠正异常值、如何进行数据标准化等 ;
4.1.3.3 执行清洗操作:
  • 目标: 根据清洗规则, 对数据进行实际的清洗操作 ;
  • 工具: 使用 ETL 工具、SQL 语句或编写代码, 例如使用 SQL 语句删除重复记录, 使用 ETL 工具进行数据标准化等 ;
4.1.3.4 验证清洗结果:
  • 目标: 确保清洗后的数据质量符合预期, 清洗规则有效 ;
  • 方法: 使用数据质量分析工具、SQL 查询、人工抽样检查等方法, 对清洗后的数据进行验证 ;
4.1.3.5 迭代优化:
  • 目标: 数据清洗是一个持续改进的过程, 需要根据验证结果不断优化清洗规则和方法 ;
  • 内容: 根据验证结果, 调整清洗规则的阈值、算法参数等, 或者重新评估数据质量问题, 制定新的清洗规则 ;
4.1.4 数据清洗的常用方法
  • 缺失值处理:
    • 填充默认值: 使用预设值、平均值、中位数等填充缺失值 ;
    • 删除记录: 如果缺失值占比过高, 且该字段非关键信息, 可以考虑删除整条记录 ;
    • 使用算法预测: 例如, 使用机器学习算法根据其他字段预测缺失值 ;
  • 重复值处理:
    • 去重: 根据业务规则定义唯一性约束, 删除重复记录, 保留唯一记录 ;
    • 合并: 将多条重复记录合并成一条完整记录, 例如将同一个客户的不同联系方式合并到一条记录中 ;
  • 异常值处理:
    • 删除: 对于明细不符合逻辑或业务规则的异常值, 可以直接删除 ;
    • 替换: 使用平均值、中位数、众数等统计值替换异常值 ;
    • 修正: 如果可以识别异常值产生的原因, 可以尝试修正错误数据, 例如将错误的日期格式进行修正 ;
  • 不一致性处理:
    • 数据标准化: 统一数据格式、单位、编码等, 例如将日期格式化为 YYYY-MM-DD, 将不同系统中的产品编码进行统一 ;
    • 数据校验: 使用规则引擎、正则表达式等对数据进行校验, 识别并纠正不符合规范的数据, 例如校验手机号码格式是否正确 ;
4.1.5 数据清洗的最佳实践
  • 尽早进行数据清洗: 在数据进入数据仓库之前就进行数据清洗, 可以避免脏数据污染数据仓库, 降低后续处理成本 ;
  • 加了数据质量规范: 制定统一的数据质量规范, 明确数据质量要求, 为数据清洗提供依据 ;
  • 使用自动化工具: 使用 ETL 工具或编写代码实现数据清洗自动化, 提高效率, 降低出错率 ;
  • 持续监控数据质量: 建立数据质量监控机制, 定期对数据质量进行评估, 及时发现和解决数据质量问题 ;
4.1.6 总结

数据清洗是数据仓库数据质量管理中至关重要的一环, 直接影响到数据仓库中数据的可靠性和分析结果的准确性 ;

通过制定合理的清洗规则、选择合适的清洗方法、使用自动化工具以及持续监控数据质量, 可以有效地提高数据质量, 为数据分析和业务决策提供高质量的数据支持 .

4.2 数据一致性检查

数据一致性检查是数据仓库数据质量管理中至关重要的一环, 目标是确保数据仓库中的数据在不同数据源、不同时间、不同层级之间保持一致, 避免数据冲突和矛盾, 保证数据可信度 ;

4.2.1 数据一致性的定义

数据一致性指数据在不同系统、表格或时间点之间保持统一和协调的程度 ; 它确保数据的完整性、准确性和可靠性 ;

4.2.2 数据一致性的重要性

数据仓库的数据通常来自多个不同的业务系统, 这些系统的数据结构、业务规则和更新频率可能存在差异 ; 如果不进行数据一致性检查, 就可能导致数据仓库中的数据出现以下问题 :

  • 数据冲突: 相同业务实体在不同数据源中存在不同的记录, 例如同一个客户在不同系统中拥有不同的客户ID ;
  • 数据冗余: 相同的数据在数据仓库中存储了多份, 占用存储空间, 也增加了数据维护的成本 ;
  • 数据不完整: 部分数据源的数据没有同步到数据仓库, 导致数据缺失 ;
  • 数据不准确: 数据同步过程中出现错误, 导致数据仓库中的数据与源数据不一致 ;

这些问题会严重影响数据分析结果的准确性和可靠性, 最终影响业务决策 ;

4.2.3 数据一致性检查的类型

数据一致性检查可以分为以下几种类型:

  • 实体级别的一致性: 确保相同业务实体子在不同数据源或数据仓库的不同表中拥有相同的标识和数值 ; 例如, 同一个客户在客户信息表和订单表中应该拥有相同的客户ID和客户名称 ;
  • 关系级别的一致性: 确保数据仓库中不同表之间关系的正确性 ; 例如, 订单表中的每个订单都应该关联到客户表中存在的客户 ;
  • 数值级别的一致性: 确保数据仓库中数值数据的准确性和合理性 ; 例如, 订单金额应该与订单明细金额之和相等 ;
  • 时间维度的一致性: 确保数据仓库中数据的时效性 ; 例如, 报表数据应该反应最新的业务数据 ;
4.2.4 数据一致性检查的方法
  • 定义数据规则: 根据业务需求和数据模型, 定义数据一致性规则, 例如主键约束、外键约束、数据校验规则等 ;
  • 使用数据比对工具: 使用数据比对工具, 例如 SQL Server Data Compare、Informatica Data Validation Option 等, 自动比对不同数据源或数据仓库中数据的差异, 并生成比对报告 ;
  • 编写 SQL 语句: 编写 SQL 语句进行数校验, 例如使用 JOIN 语句检查不同表直接关系的正确性, 使用 Group By 和 Having 语句检查数值数据的汇总结果是否一致 ;
  • 开发数据质量监控程序: 开发数据质量监控程序, 定期执行数据一致性检查, 并将检查结果发给相关人员进行处理 ;
  • 统计分析: 使用统计方法识别异常和不一致 ;
  • 交叉验证: 比较不同来源或时间点的数据 ;
  • 元数据分析: 检查元数据的一致性 ;
  • 数据流分析: 跟踪数据在系统间的流动, 检查一致性 ;
4.2.5 数据一致性检查的关键领域
  • 主数据一致性: 确保客户、产品等主数据 across 系统保持一致 ;
  • 事务数据一致性: 确保交易、订单等事务数据的一致性 ;
  • 计算结果一致性: 确保汇总、计算等结果的一致性 ;
  • 历史数据一致性: 确保历史数据与当前数据的一致性 ;
4.2.6 实施一致性检查的步骤
  • 识别关键数据元素: 确定需要进行一致性检查的关键数据 ;
  • 定义一致性规则: 制度明确的一致性检查规则 ;
  • 开发检查程序: 实现自动化的一致性检查程序 ;
  • 执行定期检查: 定期运行一致性检查 ;
  • 分析结果: 分析检查结果, 识别不一致问题 ;
  • 问题修改正: 解决发现的不一致问题 ;
  • 持续监控: 持续监控数据一致性, 并优化检查过程 ;
4.2.7 数据一致性检查的工具和技术
  • SQL 查询: 使用SQL进行基础的一致性检查 ;
  • ETL工具: 如 Informatica、Talend 等, 提供内置的一致性检查功能 ;
  • 专业数据质量工具: 如 IBM InfoSphere Information Server、SAS Data Quality ;
  • 自定义脚本: 使用 Python、R等语言编写自定义检查脚本 ;
  • 数据质量平台: 提供全面的数据质量管理功能, 包括一致性检查 ;
4.2.8 数据一致性检查的挑战
  • 大数据量: 处理海量数据时的性能问题 ;
  • 复杂的业务逻辑: 处理复杂的一致性规则和业务逻辑 ;
  • 实时检查需求: 支持实时或近实时的一致性检查 ;
  • 跨系统整合: 整合不同系统的数据进行一致性检查 ;
4.2.9 数据一致性检查的最佳实践
  • 尽早进行数据一致性检查: 在数据进入数据仓库之前就进行检查, 可以避免脏数据污染数据仓库, 降低后续处理成本 ;
  • 建立数据质量规范: 制度统一的数据质量规范, 明确数据一致性要求, 为数据一致性检查提供依据 ;
  • 使用自动化工具: 尽量使用数据比对工具或编写代码实现数据一致性检查自动化, 提高效率, 降低出错率 ;
  • 持续监控数据库质量: 建立数据质量监控机制, 定期对数据一致性进行评估, 及时发现和解决数据质量问题 ;
4.2.10 新兴趋势
  • AI驱动的一致性检查: 使用机器学习识别复杂的不一致模型 ;
  • 实时监控: 实时监控数据流, 及时发现不一致问题 ;
  • 区块链应用: 利用区块链技术确保数据的一致性和不可篡改性 ;
  • 数据血缘分析: 通过数据血缘分析提高一致性检查的精确性 ;
4.2.11 总结

数据一致性检查是数据仓库数据质量管理中不可或缺的一环, 它直接影响到数据仓库中数据的可靠性和分析结果的准确性 ;

通过定义数据规则、使用自动化工具、持续监控数据质量, 可以有效地保证数据一致性, 为数据分析和业务决策提供高质量的数据支持 .

4.3 数据质量度量

数据质量度量是数据仓库数据质量管理的核心环节, 目标是将抽象的数据质量概念转化为可量化的指标, 通过对这些指标的监控和分析, 帮助我们了解数据质量状况、发现数据质量问题、评估数据质量效果, 并为数据质量改进提供方向 ;

4.3.1 数据质量度量的维度

数据质量度量需要从多个维度进行, 常见的维度包括:

  • 准确性 (Accuracy): 数据是否真实反映业务情况, 是否存在错误或偏差 ; 例如, 客户地址是否正确, 订单金额是否准确 ;
  • 完整性 (Completeness): 数据是否完整, 是否存在缺失值 ; 例如, 客户信息表中是否缺少联系方式, 订单表中是否缺少商品信息 ;
  • 一致性 (Consistency): 数据在不同数据源、不同时间、不同层级之间是否一致, 是否存在冲突或矛盾 ; 例如, 同一个客户在不同系统中是否拥有相同的客户ID, 订单金额与订单明细金额之和是否相等 ;
  • 及时性 (Timeliness): 数据是否及时更新, 是否满足业务需求 ; 例如, 报表数据是否反映最新的业务数据, 库存数据是否及时更新 ;
  • 有效性 (Validity): 数据是否符合定义的规则和约束 ; 例如, 日期格式是否正确, 编码是否符合规则 ;
  • 唯一性 (Uniqueness): 数据是否唯一, 是否存在重复记录 ; 例如, 客户信息表中是否存在重复的客户记录 ;
  • 可理解性 (Understandability): 数据是否易于理解和使用 ; 例如, 数据字典是否完善, 数据含义是否清晰 ;
4.3.2 数据质量度量指标

针对不同的数据质量维度, 需要制定相应的度量指标, 常见的指标包括:

维度指标说明
准确性错误率错误记录数占总记录数的比例
偏差率数据值与真实值之间的偏差程度
完整性缺失率缺失值数量占总记录数的比例
空值率空置数量占总记录数的比例
一致性不一致率不一致记录数占总记录数的比例
重复率重复记录数占总记录数的比例
及时性更新频率数据更新的频率, 例如每天更新次数
延迟时间数据从产生到可用的时间间隔
有效性检验通过率通过数据检验规则的记录数占总记录数的比例
唯一性重复记录数数据集中存在的重复记录数量
4.3.3 数据质量度量方法
  • 手工检查: 通过人工方式对数据进行抽样检查, 例如人工核对数据准确性, 统计数据缺失情况等 ;
  • 规则校验: 使用预先定义的规则对数进行校验, 例如使用 SQL 语句检查数据一致性, 使用正则表达式校验数据格式等 ;
  • 统计分析: 使用统计学方法对数据进行分析, 例如计算数据分布、相关性等, 发现数据中的异常情况 ;
  • 数据质量工具: 使用专门的数据质量工具进行数据质量评估, 例如 IBM InfoSphere Data Quality、Informatica Data Quality 等 ;
4.3.4 数据质量度量报告

数据质量度量结果需要以报告的形式呈现, 报告内容应包括:

  • 数据质量概览: 总体描述数据质量状况, 例如数据质量评分、数据质量问题分布等 ;
  • 指标分析: 对关键数据质量指标进行分析, 例如指标趋势、问题原因分析等 ;
  • 改进建议: 针对数据质量问题提出改进建议, 例如优化数据采集流程、完善数据校验规则等 ;
4.3.5 数据质量度量最佳实践
  • 建立数据质量度量体系: 建立统一的数据质量度量体系, 明确度量维度、指标、方法和报告规范 ;
  • 选择合适的度量指标: 根据业务需求和数据特点选择合适的度量指标, 避免指标过多或过少 ;
  • 定期进行数据质量度量: 定期对数据质量进行度量, 例如每月、每季度进行一次, 并跟踪数据质量变化趋势 ;
  • 将数据质量度量结果应用于数据治理: 根据数据质量度量结果, 制度数据治理策略, 并跟踪治理效果 ;
4.3.6 总结

数据质量度量是数据仓库数据质量管理的重要手段, 通过对数据质量进行量化评估, 可以帮助我们更好地了解数据质量现状、发现数据质量问题、评估数据治理效果, 并为数据质量改进提供方向 ;

5- 元数据管理

元数据管理是数据仓库建设和运维的核心, 它帮助我们理解、管理和使用数据仓库中的海量数据 ;

5.1 业务元数据

5.1.1 定义

业务元数据描述了数据仓库中数据的业务含义、用途和关联关系, 它从业务角度解释数据, 帮助业务人员和数据分析师理解和使用数据 ;

5.1.2 主要内容
  • 业务术语表: 定义和管理业务术语及其定义, 例如 ‘客户’、‘订单’、'商品’等, 确保业务术语子啊不同系统和应用中的一致性 ;
  • 数据字典: 记录数据仓库中每个字段的业务定义、数据类型、取值范围、关联关系、数据来源等信息, 方便用户理解和使用数据 ;
  • 数据指标体系: 定义和管理业务指标、指标计算公式、指标维度等信息, 为数据分析提供依据 ;
  • 数据血缘: 记录数据的来源、转换过程和使用情况, 帮助用户追踪数据流向, 保障数据质量和合规性 ;
  • 数据质量规则: 定义数据质量校验规则, 例如数据完整性、准确性、一致性等规则, 并记录规则的执行结果, 帮助用户监控和改进数据质量 ;
  • 数据使用策略: 定义数据的访问权限、使用方式、安全策略等, 确保数据安全和合规使用 ;
5.1.3 管理工具
  • 源数据管理平台: 例如 Alation、Collibra、Data.World等, 提供专门的元数据管理功能, 包括元数据采集、存储、管理、分析等 ;
  • 数据治理工具: 例如 Informatica、IBM DataStage 等, 通常包含元数据管理模块, 可以与数据集成、数据质量等功能结合使用 ;
  • 数据目录工具: 例如 Amazon Glue Data Catalog、Azure Data Catalog 等, 提供数据发现和元数据管理功能, 方便用户查找和理解数据 ;

5.2 技术元数据

5.2.1 定义

技术元数据描述了数据仓库的技术细节, 例如数据结构、数据存储、数据处理流程等, 它面向技术人员, 帮助他们构建、维护和优化数据仓库 ;

5.2.2 主要内容
  • 数据库 Schema: 记录数据仓库中数据库、表、视图、字段等的定义, 例如数据类型、长度、约束等 ;
  • ETL 流程定义: 记录 ETL 工具的配置信息、转换规则、调度计划等, 例如数据抽取规则、数据清洗规则、数据加载规则等 ;
  • 数据存储信息: 记录数据的存储位置、存储格式、压缩算法等, 例如数据存储在哪个数据库、哪个表、使用什么文件格式存储等 ;
  • 数据处理日志: 记录数据处理过程中的详细信息, 例如数据处理时间、处理量、错误信息等, 方便问题排查和性能优化 ;
  • 数据安全策略: 记录数据仓库的安全策略, 例如访问控制策略、数据加密策略、数据备份策略等, 保障数据安全 ;
5.2.3 管理工具
  • ETL 工具: 例如 Informatica PowerCenter、IBM DataStage、Apache NiFi 等, 通常内置元数据管理功能, 可以记录 ETL 流程定义、数据 Lineage 等信息 ;
  • 数据库管理工具: 例如 SQL Server Management Studio、Oracle SQL Developer 等, 可以查看和管理数据库 Schema、数据存储信息等 ;
  • 监控工具: 例如 Prometheus、 Zabbix 等, 可以监控数据仓库的运行状态、性能指标等, 并记录相关日志信息 ;

5.3 元数据管理工具

5.3.1 定义

源数据管理工具用于管理数据仓库的元数据, 包括数据采集、数据质量检验、数据转换等功能, 它帮助企业将分散在各个业务系统中的数据整合到数据仓库中 ;

5.3.2 主要功能
  • 数据采集: 从不同的数据源采集数据, 例如数据库、文件、消息队列等, 支持多种数据采集方式, 例如实时采集、批量采集等 ;
  • 数据质量校验: 对采集到的数据进行质量校验, 例如数据完整性、准确性、一致性等校验, 并对不符合规则的数据进行处理, 例如清洗、转换等 ;
  • 数据转换: 对采集到的数据进行格式转换、编码转换、数据脱敏等操作, 使其符合数据仓库的数据模型和业务需求 ;
  • 数据同步: 将处理后的数据同步到数据仓库中, 支持多种数据同步方式, 例如全量同步、增量同步等 ;
5.3.3 常用工具
  • Informatica PowerCenter : 企业级数据集成和数据质量管理平台, 提供强大的数据采集、数据转换、数据质量校验等功能 ;
  • IBM DataStage: 功能强大的 ETL 工具, 支持多种数据源和目标, 提供可视化的数据集成和转换功能 ;
  • Talend Open Studio: 开源的 ETL 工具, 提供易于使用的界面和丰富的组件库, 支持多种数据源和目标 ;
  • Apache Kafka: 高吞吐量的分布式消息队列系统, 可以用于实时数据采集和数据管道构建 ;

5.4 总结

数据仓库中的元数据管理涵盖了业务、技术和元数据等多方面, 选择合适的元数据管理工具和策略, 对于构建和维护一个高效、可靠的数据仓库至关重要 .

这篇关于数据仓库: 4- 数据质量管理 5- 元数据管理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1103536

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

软考系统规划与管理师考试证书含金量高吗?

2024年软考系统规划与管理师考试报名时间节点: 报名时间:2024年上半年软考将于3月中旬陆续开始报名 考试时间:上半年5月25日到28日,下半年11月9日到12日 分数线:所有科目成绩均须达到45分以上(包括45分)方可通过考试 成绩查询:可在“中国计算机技术职业资格网”上查询软考成绩 出成绩时间:预计在11月左右 证书领取时间:一般在考试成绩公布后3~4个月,各地领取时间有所不同