CloudCanal x Hive 构建高效的实时数仓

2024-03-01 22:36

文章标签 高效构建实时数仓 hive cloudcanal

本文主要是介绍CloudCanal x Hive 构建高效的实时数仓，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

简述

CloudCanal 最近对于全周期数据流动进行了初步探索，打通了Hive 目标端的实时同步，为实时数仓的构建提供了支持，这篇文章简要做下分享。

基于临时表的增量合并方式
基于 HDFS 文件写入方式
临时表统一 Schema
任务级的临时表

基于临时表的增量合并方式

Hive 目标端写入方式和 Doris 相似，需要在目标表上额外添加一个 __op（0：UPSERT，1：DELETE）字段作为标记位，实际写入时会先将源端的变更先写入临时表，最终合并到实际表中。

CloudCanal 的设计核心在于，每个同步表对应两张临时表，通过交替合并的方式，确保在一张临时表进行合并时，另一张能够接收新变更，从而提升同步效率和并发性。

Hive 提供了两种合并方式：INSERT OVERWRITE（所有版本均支持），MERGE INTO（Hive 2.2.0 之后支持且需要是 ACID 表）

-- INSERT OVERWRITE 语法
INSERT OVERWRITE [LOCAL] DIRECTORY directory1[ROW FORMAT row_format] [STORED AS file_format]
SELECT ... FROM ...-- MERGE INTO 语法
MERGE INTO <target table > AS T USING < source expression / table > AS S
ON <boolean expression1>WHEN MATCHED [AND <boolean expression2>] THEN
UPDATE SET <set clause list>WHEN MATCHED [AND <boolean expression3>] THEN
DELETEWHEN NOT MATCHED [AND <boolean expression4>] THEN INSERT VALUES<value list>

任务级的临时表

在大数据场景下，多表汇聚的情况十分普遍，CloudCanal 在构建临时表时，利用源端的订阅 Schema Table 信息，创建不同的临时表。

通过这种方式，无论是相同或不同的任务、相同或不同的 Schema（源端）、相同或不同的 Table（源端），都能将数据写入不同的临时表，最终合并到同一个实际表中，互相之间不会产生影响。

基于 HDFS 文件的写入方式

Hive 是建立在 Hadoop 体系上的数据仓库，而实际的数据存储在 HDFS 中。

如果直接通过 HQL 将增量数据写入 Hive，Hive 会将 HQL 转化为 MR Job，由于每一个 MR Job 处理速度相对较慢，这将导致增量性能极其差。

CloudCanal 在进行数据写入的时候，选择的是绕过 Hive 这层，直接写入 HDFS 文件系统。

目前支持 HDFS 文件格式：Text、Orc、Parquet。

临时表统一 Schema

基于临时表构建的增量方式，如果临时表分散在不同的 Schema 中，将给 DBA 的管理带来不便。

为了简化管理，CloudCanal 将所有临时表构建在统一的 Schema 下，并允许用户自定义其临时表路径。

示例

准备 CloudCanal

下载安装 CloudCanal 私有部署版本

添加数据源

数据源管理 -> 添加数据源，添加 MySQL、Hive

创建同步任务

选择源端 MySQL 和目标端 Hive，同步的 Schema 和 Table，高级参数含义参考 MySQL -> Hive
任务创建第四步，点击 配置分区键
选择 分区键类型 以及 HDFS 文件类型
点击下一步，创建任务即可

未来方向

文件 Append 写入方式

目前 HDFS 文件写入处理，是每批数据写到一个文件中，并不会处理历史数据文件，更加合理的方式是基于历史文件进行 Append
追加，写满之后再切换为下一个文件。

提供参数优化 MR 处理速度

目前 CloudCanal 并没有提供参数入口用于优化 MR 处理速度，而是自动使用用户所配置的，未来 CloudCanal 将提供一个参数入口用于用户自定义每一个
MR Job 的处理并行度等优化参数。

支持 MERGE INTO 合并方式

目前 CloudCanal 仅支持 INSERT OVERWRITE 的合并方式，这种方式更为通用，而 MERGE INTO 此种合并方式速度更快，但限制较多，未来
CloudCanal 也会支持此种合并方式。

支持自定义分区键

目前 CloudCanal 仅支持按照日期选择分区键，目前暂时不支持更多分区键的选择，未来 CloudCanal 会提供更多分区键的选择。

总结

本篇文章简单介绍 CloudCanal 对于全生命周期的数据流动的初步探索，并通过 MySQL -> Hive 示例介绍其使用。

这篇关于CloudCanal x Hive 构建高效的实时数仓的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/764051。 23002807@qq.com

相关文章

轻松上手MYSQL之JSON函数实现高效数据查询与操作

轻松上手MYSQL之JSON函数实现高效数据查询与操作

《轻松上手MYSQL之JSON函数实现高效数据查询与操作》：本文主要介绍轻松上手MYSQL之JSON函数实现高效数据查询与操作的相关资料,MySQL提供了多个JSON函数,用于处理和查询JSON数... 目录一、jsON_EXTRACT 提取指定数据二、JSON_UNQUOTE 取消双引号三、JSON_KE

阅读更多...

java如何通过Kerberos认证方式连接hive

java如何通过Kerberos认证方式连接hive

《java如何通过Kerberos认证方式连接hive》该文主要介绍了如何在数据源管理功能中适配不同数据源（如MySQL、PostgreSQL和Hive）,特别是如何在SpringBoot3框架下通过... 目录Java实现Kerberos认证主要方法依赖示例续期连接hive遇到的问题分析解决方式扩展思考总

阅读更多...

Tomcat高效部署与性能优化方式

Tomcat高效部署与性能优化方式

《Tomcat高效部署与性能优化方式》本文介绍了如何高效部署Tomcat并进行性能优化,以确保Web应用的稳定运行和高效响应,高效部署包括环境准备、安装Tomcat、配置Tomcat、部署应用和启动T... 目录Tomcat高效部署与性能优化一、引言二、Tomcat高效部署三、Tomcat性能优化总结Tom

阅读更多...

Python利用自带模块实现屏幕像素高效操作

Python利用自带模块实现屏幕像素高效操作

《Python利用自带模块实现屏幕像素高效操作》这篇文章主要为大家详细介绍了Python如何利用自带模块实现屏幕像素高效操作,文中的示例代码讲解详,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1、获取屏幕放缩比例2、获取屏幕指定坐标处像素颜色3、一个简单的使用案例4、总结1、获取屏幕放缩比例from

阅读更多...

nginx-rtmp-module构建流媒体直播服务器实战指南

nginx-rtmp-module构建流媒体直播服务器实战指南

《nginx-rtmp-module构建流媒体直播服务器实战指南》本文主要介绍了nginx-rtmp-module构建流媒体直播服务器实战指南,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. RTMP协议介绍与应用RTMP协议的原理RTMP协议的应用RTMP与现代流媒体技术的关系2

阅读更多...

使用Python实现高效的端口扫描器

使用Python实现高效的端口扫描器

《使用Python实现高效的端口扫描器》在网络安全领域,端口扫描是一项基本而重要的技能,通过端口扫描,可以发现目标主机上开放的服务和端口,这对于安全评估、渗透测试等有着不可忽视的作用,本文将介绍如何使... 目录1. 端口扫描的基本原理2. 使用python实现端口扫描2.1 安装必要的库2.2 编写端口扫

阅读更多...

Oracle查询优化之高效实现仅查询前10条记录的方法与实践

Oracle查询优化之高效实现仅查询前10条记录的方法与实践

《Oracle查询优化之高效实现仅查询前10条记录的方法与实践》：本文主要介绍Oracle查询优化之高效实现仅查询前10条记录的相关资料,包括使用ROWNUM、ROW_NUMBER()函数、FET... 目录1. 使用 ROWNUM 查询2. 使用 ROW_NUMBER() 函数3. 使用 FETCH FI

阅读更多...

在C#中获取端口号与系统信息的高效实践

在C#中获取端口号与系统信息的高效实践

《在C#中获取端口号与系统信息的高效实践》在现代软件开发中,尤其是系统管理、运维、监控和性能优化等场景中,了解计算机硬件和网络的状态至关重要,C#作为一种广泛应用的编程语言,提供了丰富的API来帮助开... 目录引言1. 获取端口号信息1.1 获取活动的 TCP 和 UDP 连接说明：应用场景：2. 获取硬

阅读更多...

Python实现高效地读写大型文件

Python实现高效地读写大型文件

《Python实现高效地读写大型文件》Python如何读写的是大型文件,有没有什么方法来提高效率呢,这篇文章就来和大家聊聊如何在Python中高效地读写大型文件,需要的可以了解下... 目录一、逐行读取大型文件二、分块读取大型文件三、使用 mmap 模块进行内存映射文件操作（适用于大文件）四、使用 pand

阅读更多...

高效管理你的Linux系统: Debian操作系统常用命令指南

高效管理你的Linux系统: Debian操作系统常用命令指南

《高效管理你的Linux系统:Debian操作系统常用命令指南》在Debian操作系统中，了解和掌握常用命令对于提高工作效率和系统管理至关重要，本文将详细介绍Debian的常用命令，帮助读者更好地使... Debian是一个流行的linux发行版，它以其稳定性、强大的软件包管理和丰富的社区资源而闻名。在使用

阅读更多...