大数据测试梳理及未来趋势探索

2024-02-28 20:10

本文主要是介绍大数据测试梳理及未来趋势探索,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

    数据即资产,数据质量是数据的生命线,有了数据+模型+算力,便有了持续将数据应用于业务场景的能力。而成百上千张库表是否每日按时生成、生成的数据字段是否完整、生成数据的逻辑是否正确、生成数据分布是否合理、生成数据是否一致都会影响业务使用,而这些便是数据质量的范畴。

   

1.数据流向简总

1.1数据基本流向

数据从生产到应用,主要经历数据源、数据清洗、数据计算、数据中间件再到数据应用5大环节。用户直观感受的数据,都在数据应用层。前4个环节都是为了得出最后1层的数据结果。

1.2简总数仓各层含义:

ODS:数仓最底层也叫贴源层,数据无任何信息损失及加工逻辑存储于ods层,保持数据最原始结构,包括脏数据在内。

DWD:数据预处理,需要对数据进行进行统一的数据清洗、归一例如脏数据处理、字段缺失、格式错误、乱码、空值等,将数据变成格式化或半格式化数据,比如字段格式处理、或者转化为parquent列式存储等,

DWS(中间层):很重要的一层。当所有的数据都存好了,处理完脏数据之后,通过此层将数据通过不同主题进行汇总存储,通常说得业务域,比如:订单域、采购域、库存域、商品域、用户域、物流域等等,可冗余尽可能多的信息,对于提高下游计算的速度、减少运算数据量、简化业务逻辑、合并计算单元等具有特别大的好处

DM:维度信息:来源:dws层数据表,处理:多维度整理数据,用于多个维度的快速查找、分组和排序等

ADS:数据应用层,也是数仓最上层数据,高度汇总数据,针对公司业务需求,通过其它层数据的统一加工和处理,计算出可直接导入到服务去应用的数据,此层代表了与最终业务数据的一致性。

2、数据保障

数据生产前的数据验证,是保障数据质量的重要阶段,也是提前规避问题的主要环节。做好数据验证,数据验证包含数据梳理、数据测试、过程管理3个方面

2.1数据梳理

2.2数据测试

数据测试,主要包括项目功能需求理解、分析方案梳理、数据流向梳理、开发代码走查、数据表验证几个环节。以数据表验证为例,分别从一下维度验证:

 

2.1.1完整性

  1. 数据量是否完整

分区完整性验证

select a.dataday from

(select dataday from dim.dim_day_week where year>='2014' and year<='2022' and dataday<='2022-06-21' and dataday >='2014-05-30') a left join

(select distinct dt from ads.ads_sd_sales_volume_amount_cost_profit_d) b on a.dataday = b.dt where b.dt is null;

  1. 所需字段是否完整

表结构检查:如下表:

srv_supply_chain_sku_replace_d 对应替换关系的sku

CREATE TABLE `srv_supply_chain_sku_replace_d` (

  `org_sku_code` varchar(100) DEFAULT NULL COMMENT '原始的sku商品',

  `org_sku_name` varchar(100) DEFAULT NULL COMMENT '原始的sku商品',

  `sku_name` varchar(100) DEFAULT NULL COMMENT '商品名称',

  `sku_code` varchar(100) DEFAULT NULL COMMENT '商品sku',

  `replace_type` int(10) DEFAULT NULL,

  `replace_name` varchar(100) DEFAULT NULL

) ENGINE = InnoDB DEFAULT CHARSET = utf8mb4

3. 字段内容是否完整,空值率等

判断为null

--空值判断 SELECT sku_id,sku_name FROM xxx.ads_xxx_sku WHERE pt = '20221211' and (sku_id IS NULL OR sku_name IS NULL)

判断是否为空

select sku_id,sku_name from xxx.ads_xxx_sku where pt='20221211'

这篇关于大数据测试梳理及未来趋势探索的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/756487

相关文章

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟&nbsp;开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚&nbsp;第一站:海量资源,应有尽有 走进“智听

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出 在数字化时代,文本到语音(Text-to-Speech, TTS)技术已成为人机交互的关键桥梁,无论是为视障人士提供辅助阅读,还是为智能助手注入声音的灵魂,TTS 技术都扮演着至关重要的角色。从最初的拼接式方法到参数化技术,再到现今的深度学习解决方案,TTS 技术经历了一段长足的进步。这篇文章将带您穿越时

轻松录制每一刻:探索2024年免费高清录屏应用

你不会还在用一些社交工具来录屏吧?现在的市面上有不少免费录屏的软件了。别看如软件是免费的,它的功能比起社交工具的录屏功能来说全面的多。这次我就分享几款我用过的录屏工具。 1.福晰录屏大师 链接直达:https://www.foxitsoftware.cn/REC/  这个软件的操作方式非常简单,打开软件之后从界面设计就能看出来这个软件操作的便捷性。界面的设计简单明了基本一打眼你就会轻松驾驭啦

国产游戏行业的崛起与挑战:技术创新引领未来

国产游戏行业的崛起与挑战:技术创新引领未来 近年来,国产游戏行业蓬勃发展,技术水平不断提升,许多优秀作品在国际市场上崭露头角。从画面渲染到物理引擎,从AI技术到服务器架构,国产游戏已实现质的飞跃。然而,面对全球游戏市场的激烈竞争,国产游戏技术仍然面临诸多挑战。本文将探讨这些挑战,并展望未来的机遇,深入分析IT技术的创新将如何推动行业发展。 国产游戏技术现状 国产游戏在画面渲染、物理引擎、AI

梳理2024年,螺丝钉们爱用的3款剪辑软件

这年头,视频到处都是,就跟天上的星星一样数不清。不管你是公司里的新面孔,还是职场上的老狐狸,学会怎么剪视频,就好比找到了赢的秘诀。不管是给上司汇报工作,展示你的产品,还是自己搞点小视频记录生活,只要是剪辑得漂亮,肯定能一下子吸引大家的目光,让人记得你。咱们今天就来侃侃现在超火的三款视频剪辑工具,尤其是PR剪辑,你肯定听说过,这货在剪辑界可是大名鼎鼎,用它剪视频,既专业又麻利。 NO1. 福昕轻松

深入探索嵌入式 Linux

摘要:本文深入探究嵌入式 Linux。首先回顾其发展历程,从早期尝试到克服诸多困难逐渐成熟。接着阐述其体系结构,涵盖硬件、内核、文件系统和应用层。开发环境方面包括交叉编译工具链、调试工具和集成开发环境。在应用领域,广泛应用于消费电子、工业控制、汽车电子和智能家居等领域。关键技术有内核裁剪与优化、设备驱动程序开发、实时性增强和电源管理等。最后展望其未来发展趋势,如与物联网融合、人工智能应用、安全性与

未来工作趋势:零工小程序在共享经济中的作用

经济在不断发展的同时,科技也在飞速发展。零工经济作为一种新兴的工作模式,正在全球范围内迅速崛起。特别是在中国,随着数字经济的蓬勃发展和共享经济模式的深入推广,零工小程序在促进就业、提升资源利用效率方面显示出了巨大的潜力和价值。 一、零工经济的定义及现状 零工经济是指通过临时性、自由职业或项目制的工作形式,利用互联网平台快速匹配供需双方的新型经济模式。这种模式打破了传统全职工作的界限,为劳动

【vue3|第28期】 Vue3 + Vue Router:探索路由重定向的使用与作用

日期:2024年9月8日 作者:Commas 签名:(ง •_•)ง 积跬步以致千里,积小流以成江海…… 注释:如果您觉在这里插入代码片得有所帮助,帮忙点个赞,也可以关注我,我们一起成长;如果有不对的地方,还望各位大佬不吝赐教,谢谢^ - ^ 1.01365 = 37.7834;0.99365 = 0.0255 1.02365 = 1377.4083;0.98365 = 0.0006 说

多云架构下大模型训练的存储稳定性探索

一、多云架构与大模型训练的融合 (一)多云架构的优势与挑战 多云架构为大模型训练带来了诸多优势。首先,资源灵活性显著提高,不同的云平台可以提供不同类型的计算资源和存储服务,满足大模型训练在不同阶段的需求。例如,某些云平台可能在 GPU 计算资源上具有优势,而另一些则在存储成本或性能上表现出色,企业可以根据实际情况进行选择和组合。其次,扩展性得以增强,当大模型的规模不断扩大时,单一云平