【ClickHouse】副本、分片集群 (六)

2024-06-22 07:20

本文主要是介绍【ClickHouse】副本、分片集群 (六),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

副本
副本的目的主要是保障数据的高可用性,即使一台ClickHouse节点宕机,那么也可以从其他服务器获得相同的数据。

https://clickhouse.tech/docs/en/engines/table-engines/mergetree-family/replication/

副本写入流程
写入流程如图-18所示:
在这里插入图片描述

图-18 写入流程
配置步骤
1)启动zookeeper集群。
2)在hadoop101的/etc/clickhouse-server/config.d目录下创建一个名为metrika.xml的配置文件,内容如下:
注:也可以不创建外部文件,直接在config.xml中指定。

<?xml version="1.0"?>
<yandex>
<zookeeper-servers>
<node index="1">
<host>hadoop101</host>
<port>2181</port>
</node>
<node index="2">
<host>hadoop102</host>
<port>2181</port>
</node>
<node index="3">
<host>hadoop103</host>
<port>2181</port>
</node>
</zookeeper-servers>
</yandex>

3)同步到hadoop102和hadoop103上。

xsync /etc/clickhouse-server/config.d/metrika.xml	

4)在hadoop101的/etc/clickhouse-server/config.xml中增加。

<zookeeper incl="zookeeper-servers" optional="true" />
<include_from>/etc/clickhouse-server/config.d/metrika.xml</include_from>

在这里插入图片描述

图-19 配置文件
5)同步到hadoop102和hadoop103上。

xsync /etc/clickhouse-server/config.xml

6)分别在hadoop102和hadoop103上启动ClickHouse服务。

clickhouse restart

注意:因为修改了配置文件,如果以前启动了服务需要重启。
注意:我们演示副本操作只需要在hadoop101和hadoop102两台服务器即可,上面的操作,我们hadoop103可以你不用同步,我们这里为了保证集群中资源的一致性,做了同步。
7)在hadoop101和hadoop102上分别建表。
副本只能同步数据,不能同步表结构,所以我们需要在每台机器上自己手动建表。
hadoop101:

create table t_order_re ( id UInt32,
sku_id String,
total_amount Decimal(16,2), 
create_time Datetime
) engine =ReplicatedMergeTree('/clickhouse/table/01/t_order','rep_001') partition by toYYYYMMDD(create_time)
primary key (id) order by (id,sku_id);

hadoop102:

create table t_order_re ( id UInt32,
sku_id String,
total_amount Decimal(16,2), 
create_time Datetime
) engine =ReplicatedMergeTree('/clickhouse/table/01/t_order','rep_002') partition by toYYYYMMDD(create_time)
primary key (id) order by (id,sku_id);

参数解释
ReplicatedMergeTree中,第一个参数是分片的zk_path一般按照:/clickhouse/table/{shard}/{table_name}的格式写,如果只有一个分片就写 01 即可。
第二个参数是副本名称,相同的分片副本名称不能相同。
在hadoop101上执行insert语句,结果如图-20所示:

insert into t_order_re values (101,'sku_001',1000.00,'2020-06-01 12:00:00'),
(102,'sku_002',2000.00,'2020-06-01 12:00:00'),
(103,'sku_004',2500.00,'2020-06-01 12:00:00'),
(104,'sku_002',2000.00,'2020-06-01 12:00:00'),
(105,'sku_003',600.00,'2020-06-02 12:00:00');

在这里插入图片描述
图-20 插入数据
在hadoop102上执行select,可以查询出结果,如图-21所示,说明副本配置正确。

图-21 执行结果
分片集群
副本虽然能够提高数据的可用性,降低丢失风险,但是每台服务器实际上必须容纳全量数据,对数据的横向扩容没有解决。
要解决数据水平切分的问题,需要引入分片的概念。通过分片把一份完整的数据进行切分,不同的分片分布到不同的节点上,再通过Distributed表引擎把数据拼接起来一同使用。
Distributed表引擎本身不存储数据,有点类似于 MyCat 之于 MySql,成为一种中间件, 通过分布式逻辑表来写入、分发、路由来操作多台节点不同分片的分布式数据。
注意:ClickHouse的集群是表级别的,实际企业中,大部分做了高可用,但是没有用分片,避免降低查询性能以及操作集群的复杂性。
集群写入流程(3 分片 2 副本共 6 个节点)
写入流程如图-22所示:
在这里插入图片描述

图-22 写入流程
集群读取流程(3 分片 2 副本共 6 个节点)
读取流程如图-23所示:
在这里插入图片描述

图-23 读取流程
集群搭建
配置的位置可以在之前的/etc/clickhouse-server/config.d/metrika.xml,内容如下。
注:也可以不创建外部文件,直接在config.xml的<remote_servers>中指定。
hadoop101配置如下:

<yandex>...省略...<listen_host>::</listen_host><remote_servers><perftest_3shards_1replicas><shard><replica><host>hadoop101</host><port>9000</port></replica></shard><shard><replica><host>hadoop102</host><port>9000</port></replica></shard><shard><replica><host>hadoop103</host><port>9000</port></replica></shard></perftest_3shards_1replicas></remote_servers><!-- zookeeper相关配置 --><zookeeper-servers><node><host>hadoop101</host><port>2181</port></node><node><host>hadoop102</host><port>2181</port></node><node><host>hadoop103</host><port>2181</port></node></zookeeper-servers><!-- 复制标识的配置,也称为宏配置,这里唯一标识一个副本名称,每个实例都要配置并且都是唯一的 --><macros><shard>01</shard><replica>01</replica></macros>  ...省略...    
</yandex>

hadoop102配置如下:

<yandex>...省略...<listen_host>::</listen_host><remote_servers><perftest_3shards_1replicas><shard><replica><host>hadoop101</host><port>9000</port></replica></shard><shard><replica><host>hadoop102</host><port>9000</port></replica></shard><shard><replica><host>hadoop103</host><port>9000</port></replica></shard></perftest_3shards_1replicas></remote_servers><!-- zookeeper相关配置 --><zookeeper-servers><node><host>hadoop101</host><port>2181</port></node><node><host>hadoop102</host><port>2181</port></node><node><host>hadoop103</host><port>2181</port></node></zookeeper-servers><!-- 复制标识的配置,也称为宏配置,这里唯一标识一个副本名称,每个实例都要配置并且都是唯一的 --><macros><shard>02</shard><replica>01</replica></macros>  ...省略...    
</yandex>

hadoop103配置如下:

    <remote_servers><perftest_3shards_1replicas><shard><replica><host>hadoop101</host><port>9000</port></replica></shard><shard><replica><host>hadoop102</host><port>9000</port></replica></shard><shard><replica><host>hadoop103</host><port>9000</port></replica></shard></perftest_3shards_1replicas></remote_servers><!-- zookeeper相关配置 -->
<zookeeper-servers><node><host>hadoop101</host><port>2181</port></node><node><host>hadoop102</host><port>2181</port></node><node><host>hadoop103</host><port>2181</port></node></zookeeper-servers><!-- 复制标识的配置,也称为宏配置,这里唯一标识一个副本名称,每个实例都要配置并且都是唯一的 --><macros><shard>03</shard><replica>01</replica></macros>  

这篇关于【ClickHouse】副本、分片集群 (六)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1083648

相关文章

为什么要做Redis分区和分片

Redis分区(Partitioning)和分片(Sharding)是将数据分布在多个Redis实例或多个节点上的做法。这种技术用于提高性能、可扩展性和可用性。以下是执行Redis分区和分片的主要原因: 1. **提高吞吐量**:    - 通过将数据分散到多个节点,可以并行处理更多的操作,从而提高整体吞吐量。 2. **内存限制**:    - 单个Redis实例的内存是有限的。分区允许数据

大型网站架构演化(四)——使用应用服务器集群改善网站的并发能力

使用集群是网站解决高并发、海量数据问题的常用手段。当一台服务器的处理能力、存储空间不足时,不要企图去更换更强大的服务器,对大型服务器而言,不管多么强大的服务器,都满足不了网站持续增长的业务需求。这种情况下,更恰当的做法是增加一台服务器分担原有服务器的访问及存储压力。 对网站架构而言,只要能通过增加一台服务器的方式改善负载压力,就可以以同样的方式持续增加服务器不断改善系统性能,从而实现系统

Clickhouse 的性能优化实践总结

文章目录 前言性能优化的原则数据结构优化内存优化磁盘优化网络优化CPU优化查询优化数据迁移优化 前言 ClickHouse是一个性能很强的OLAP数据库,性能强是建立在专业运维之上的,需要专业运维人员依据不同的业务需求对ClickHouse进行有针对性的优化。同一批数据,在不同的业务下,查询性能可能出现两极分化。 性能优化的原则 在进行ClickHouse性能优化时,有几条

Solr集群的搭建和使用(2)

1   什么是SolrCloud   SolrCloud(solr 云)是Solr提供的分布式搜索方案,当你需要大规模,容错,分布式索引和检索能力时使用 SolrCloud。当一个系统的索引数据量少的时候是不需要使用SolrCloud的,当索引量很大,搜索请求并发很高,这时需要使  用SolrCloud来满足这些需求。   SolrCloud是基于Solr和Zookeeper的分布式搜索

redis哨兵、集群

1. 安装Redis3.0 yum -y install cpp binutils glibc glibc-kernheaders glibc-common glibc-devel gcc make gcc-c++ libstdc++-devel tcl   mkdir -p /usr/local/src/Redis cd /usr/local/src/redis wget http:/

瑞_MongoDB_MongoDB副本集

文章目录 1 MongoDB副本集-Replica Sets1.1 简介1.2 副本集的三个角色1.3 副本集架构目标1.4 副本集的创建1.4.1 创建主节点1.4.2 创建副本节点1.4.3 创建仲裁节点1.4.4 初始化配置副本集和主节点1.4.5 查看副本集的配置内容 rs.conf()1.4.6 查看副本集状态1.4.7 添加副本从节点1.4.8 添加仲裁从节点 1.5 副本集的数

client-go入门之1:创建连接Kubernetes集群的客户端

文章目录 简介使用 简介 我们可以使用Dashboard或kubectl来访问k8s的API,也可以使用编程语言,如Go,Java,Python作为客户端来访问k8s。client-go是一个使用go语言编写的库,用来连接k8s集群并对集群资源进行操作。 使用 以下代码使用go连上k8s集群,并查询集群的节点信息: package mainimport ("fmt"meta

Python中引用复制、分片复制、完整复制

Python中引用复制、分片复制、完整复制 首先直接看例子: >>> l1=[1,2,3]>>> l11 = l1>>> l2=[4,5,l1]>>> l2[4, 5, [1, 2, 3]]>>> l3 = l2[:]>>> l3[4, 5, [1, 2, 3]]>>> import copy>>> l4 = copy.deepcopy(l2)>>> l4[4, 5, [

GPU集群搭建-IDC要求

高性能GPU服务器集群对于IDC(Internet Data Center)的配电环境有特定的要求,主要涉及到电力供应的稳定性和冗余性、电力质量、以及冷却系统等几个关键方面: 1. **高功率密度**:GPU服务器因执行密集型计算任务,如人工智能、深度学习和高性能计算,往往消耗较大的电能。因此,IDC需要提供高功率密度的机架,通常每个机架的功率范围可达10kW到50kW甚至更高,以满足这些服务器

k8s集群master故障恢复笔记

剔除故障节点 kubectl drain master故障节点 kubectl delete node master故障节点 kubeadm reset rm -rf /etc/kubernetes/manifests mkdir -p /etc/kubernetes/pki/etcd/ 从master其他节点拷 scp /etc/kubernetes/pki/ca.crt ca.k