首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
ods专题
DB、DW、DM、ODS、OLAP、OLTP和BI的概念理解
今天特地查了一些官方解释和很多优秀的博客文章,将关于数仓方面的一些名词理解记了下来,先将这些简称做一个解释: 1、DB(DataBase):数据库,一般指的就是OLTP数据库,在线事物数据库,用来支持生产的。DB保留的是数据信息的最新状态,只有一个状态! 2、DW(Data Warehouse):数据仓库,保存的是数据在不同时间点的状态,对同一个数据信息,保留不同时间点的状态,便于我们做统计
阅读更多...
大数据-案例-离线数仓-在线教育:MySQL(业务数据)-ETL(Sqoop)->Hive数仓【ODS层-数据清洗->DW层(DWD-统计分析->DWS)】-导出(Sqoop)->MySQL->可视化
一、商业BI系统概述 商业智能系统,通常简称为商业智能系统,是商业智能软件的简称,是为提高企业经营绩效而采用的一系列方法、技术和软件的总和。通常被理解为将企业中的现有数据转换为知识并帮助企业做出明智的业务决策的工具。 BI系统中的数据来自企业的其他业务系统。例如,一个面向业务的企业,其业务智能系统数据包括业务系统订单、库存、交易账户、客户和供应商信息,以及企业所属行业和竞争对手的数据,以及其他
阅读更多...
数据仓库学习笔记 --- ODS 与 EDW
ODS简单的理解为 Operational Data Store, 可操作的数据仓库。 EDW简单理解为 Enterprise Data Warehouse, 企业级数据仓库。 普遍存在于各种企业的BI(Business Intelligence) 项目。 ODS是数据仓库的一个扩展,它也是一个企业级的数据存储模式,它的构造也是面向主题的。ODS是企业中运行系
阅读更多...
数据仓库ods层是啥意思_一文读懂大数据仓库建设
文章标签: 数据仓库ods层是啥意思 版权 从传统数仓到大数据平台,MPP数据集市,Hadoop集群,还有混合架构数仓,一直在不断演进,但是万变不离其宗,大框架和方法论终归是那一套。所以本文就来分享数仓建设的方法论,文中针对的例子是大数据环境下的数据仓库建设,从目前互联网行业数据的采集,存储,同步以及任务调度与监控方面阐述了相关技术,还专门针对数据仓库的维度建模技术做了详细的介绍。 先从大数据
阅读更多...
概念 : ODS 、数据仓库
数据仓库(Data Warehouse) 是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support) ODS 是一个面向主题的、集成的、可变的、当前的细节数据集合,用于支持企业对于即时性的、操作性的、集成的全
阅读更多...
Flinkcdc通过catalog同步mysql数据到hologres的ods中
Flinkcdc通过catalog同步mysql数据到hologres的ods中大致分为以下几步: 配置Flink CDC 的MySQL catalog: CREATE CATALOG mysqlsourceWITH ('type' = 'mysql','hostname' = 'xxxx','port' = 'xxxx','username' = 'xxxx'<
阅读更多...
ODS概念总结
概念 DB(Database)数据库 ODS(Operational Data Store)运营数据存储 DW(Data Warehouse)数据仓储 DM(Data Market)数据集市 ODS产生背景 人们对数据的处理行为可以划分为事务型数据处理(OLTP,On-Line Transaction Processing)和分析型数据处理(OLAP,On-Line Analytic Pro
阅读更多...
46.canal 版本的 ODS 层处理
2.6.1 数据格式 2.6.2 SparkStreaming 对 Topic 分流业务代码 canal 会追踪整个数据库的变更,把所有的数据变化都发到一个 topic 中了,但是为了 后续处理方便,应该把这些数据根据不同的表,分流到不同的主题中去。 (1)Kafka 发送数据工具类 在gmall2020-realtime模块中创建MyKa
阅读更多...
分析项目需求后的ods层和dwd层建表和插入语句(全量脚本)
ods层 主要在ods干的事,就是根据需求将所需要的表的数据从mysql中导入到ods层中,所以需要在hive中建立ods层的表,并且在导入的时候需要根据需求过滤一下空数据,并在建表时加入一个dt字段记录导入的时间 ods层建表语句 1,edu_ods层建立ods_customer_relationshipdrop table edu_ods.ods_customer_relationsh
阅读更多...
二百一十、Hive——Flume采集的JSON数据文件写入Hive的ODS层表后字段的数据残缺
一、目的 在用Flume把Kafka的数据采集写入Hive的ODS层表的HDFS文件路径后,发现HDFS文件中没问题,但是ODS层表中字段的数据却有问题,字段中的JSON数据不全 二、Hive处理JSON数据方式 (一)将Flume采集Kafka的JSON数据以字符串的方式整个写入Hive表中,然后再用get_json_object或json_tuple进行解析 1、ODS层建静态分区外部
阅读更多...
二百一十、Hive——Flume采集的JSON数据文件写入Hive的ODS层表后字段的数据残缺
一、目的 在用Flume把Kafka的数据采集写入Hive的ODS层表的HDFS文件路径后,发现HDFS文件中没问题,但是ODS层表中字段的数据却有问题,字段中的JSON数据不全 二、Hive处理JSON数据方式 (一)将Flume采集Kafka的JSON数据以字符串的方式整个写入Hive表中,然后再用get_json_object或json_tuple进行解析 1、ODS层建静态分区外部
阅读更多...
二百零七、Flume——Flume实时采集5分钟频率的Kafka数据直接写入ODS层表的HDFS文件路径下
一、目的 在离线数仓中,需要用Flume去采集Kafka中的数据,然后写入HDFS中。 由于每种数据类型的频率、数据大小、数据规模不同,因此每种数据的采集需要不同的Flume配置文件。玩了几天Flume,感觉Flume的使用难点就是配置文件 二、使用场景 转向比数据是数据频率为5分钟的数据类型代表,数据量很小、频率不高,因此搞定了转向比数据的采集就搞定了这一类低频率数据的实时采集问题 1
阅读更多...
二百零七、Flume——Flume实时采集5分钟频率的Kafka数据直接写入ODS层表的HDFS文件路径下
一、目的 在离线数仓中,需要用Flume去采集Kafka中的数据,然后写入HDFS中。 由于每种数据类型的频率、数据大小、数据规模不同,因此每种数据的采集需要不同的Flume配置文件。玩了几天Flume,感觉Flume的使用难点就是配置文件 二、使用场景 转向比数据是数据频率为5分钟的数据类型代表,数据量很小、频率不高,因此搞定了转向比数据的采集就搞定了这一类低频率数据的实时采集问题 1
阅读更多...
二百零三、Flume——Flume实时采集数据频率为1s的高频率Kafka数据直接写入ODS层表的HDFS文件路径下
一、目的 在离线数仓中,需要用Flume去采集Kafka中的数据,然后写入HDFS中。 由于每种数据类型的频率、数据大小、数据规模不同,因此每种数据的采集需要不同的Flume配置文件。玩了几天Flume,感觉Flume的使用难点就是配置文件 二、使用场景 静态排队数据是数据频率为1s的数据类型代表,数据量很大、频率很高,因此搞定了静态排队数据的采集就搞定了这一类高频率数据的实时采集问题
阅读更多...
几个活动日程和升级Domino 10中的ODS格式
大家好,才是真的好。今天我们介绍一些Domino活动日程,而后如何升级Domino中的数据库格式到ODS——虽然升级ODS格式我讲得很多,不过今天会用其他办法,不仅可以升级NSF,还能升级NTF和Mail.box等。 一、Domino 部分相关活动 在过去的一个月中,很多活动大家已经知道或参与过了,比如2018年10月10号的Domino 10产品的正式发布,还有持续至今的线下Domino 1
阅读更多...
【漫谈数据仓库】 如何优雅地设计数据分层 ODS DW DM层级
转载来自https://www.cnblogs.com/wang3680/p/11538451.html 转载http://bigdata.51cto.com/art/201710/554810.htm 一、文章主题 本文主要讲解数据仓库的一个重要环节:如何设计数据分层!其它关于数据仓库的内容可参考之前的文章。 本文对数据分层的讨论适合下面一些场景,超过该范围场景 or 数据仓库
阅读更多...
【电商数仓】数仓搭建之原始数据(Operation Data Store -- ODS)层(用户行为数据、业务数据)
文章目录 零 ODS层一 ODS层(用户行为数据)1 创建日志表ods_log(1)创建分区表(2)加载数据 2 Shell中单引号和双引号区别(1)在/home/hzy/bin创建一个test.sh文件(2)查看执行结果(3)总结 3 ODS层日志表加载数据脚本(1)在/home/hzy/bin创建脚本说明1说明2 (2)执行脚本 二 ODS层(业务数据)1 27张表建表语句2 ODS层
阅读更多...
二、数据仓库电商项目——ODS层
ODS层 ODS层是整个阶段最简单一层分层,主要职责是建立数据原始层,将数据都保存在HDFS上,经过步骤1我们建立出来了两个数据文件夹,一个是db,一个是log,分别代表业务数据、用户行为数据。 ODS层的特点: (1)保持数据原貌不做任何修改,起到备份数据的作用。 (2)数据采用压缩,减少磁盘存储空间(例如:原始数据100G
阅读更多...
企业级大数据项目【2】数仓-流量域ODS-DWD开发篇
1数仓整体说明 什么数仓:一个面向分析的,反映历史变化的数据仓库; 数仓的技术手段: 1)传统数仓一般都是采用关系型数据库软件; 2)大数据领域中则尚无一站式解决方案,通常需要用到很多技术组件来实现不同环节: 使用HDFS做存储使用 spark、mapreduce 作为底层计算引擎使用hive或者sparksql,作为sql引擎另外,还有impala/presto纯内存运算引擎,kylin,
阅读更多...
【数据开发】DW数仓分层设计架构与同步策略(ODS、DWD、DWS等字段含义)
文章目录 1、什么是数据仓库(DW)2、DW分层设计架构(ODS,DWD,DWS)3、数仓同步策略 1、什么是数据仓库(DW) Data warehouse(可简写为DW或者DWH)数据仓库是什么? 是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它是一整套包括了etl、调度、建模在内的完整的理论体系。数据仓库的方案建设的目的,是为前端查询和分
阅读更多...