深度解密Kafka:从内部存储结构到关键技术的全景透视

2024-06-13 16:36

本文主要是介绍深度解密Kafka:从内部存储结构到关键技术的全景透视,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1. Kafka的核心功能

高吞吐量和低延迟

Kafka的设计目标之一是处理大量的数据流。通过分布式架构,Kafka能够水平扩展,从而处理每秒数百万条消息。其高吞吐量和低延迟特性来源于以下几点:

  • 顺序写入:Kafka将消息顺序写入日志文件,而不是随机写入。这种顺序写入极大地减少了磁盘寻址时间,提高了磁盘写入速度。
  • 批处理:生产者可以批量发送消息,消费者也可以批量消费消息。这种批处理方式减少了网络请求的次数,提高了整体吞吐量。
  • 零拷贝机制:通过操作系统的sendfile系统调用,Kafka减少了数据在内核态和用户态之间的拷贝次数,进一步提升了数据传输效率。
  • Properties props = new Properties();
    props.put("bootstrap.servers", "localhost:9092");
    props.put("acks", "all");
    props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
    props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");KafkaProducer<String, String> producer = new KafkaProducer<>(props);
    for (int i = 0; i < 1000; i++) {ProducerRecord<String, String> record = new ProducerRecord<>("my-topic", Integer.toString(i), Integer.toString(i));producer.send(record);
    }
    producer.close();
    
持久性

Kafka通过将消息持久化到磁盘,确保了数据的可靠性。即使系统发生崩溃,重启后依然能够恢复数据。Kafka的持久性由以下机制保证:

  • 日志文件:每条消息被写入到分区对应的日志文件中,Kafka保证消息写入磁盘后才返回成功。
  • 副本机制:每个分区可以有多个副本,副本之间的数据同步保证了即使部分节点故障,数据依然可用。
  • 日志压缩:Kafka支持基于键的日志压缩,可以定期清理旧数据,保留最新的消息版本,减少磁盘空间占用。
  • Properties props = new Properties();
    props.put("bootstrap.servers", "localhost:9092");
    props.put("group.id", "test-group");
    props.put("enable.auto.commit", "true");
    props.put("auto.commit.interval.ms", "1000");
    props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
    props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
    consumer.subscribe(Collections.singletonList("my-topic"));
    while (true) {ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));for (ConsumerRecord<String, String> record : records) {System.out.printf("offset = %d, key = %s, value = %s%n", record.offset(), record.key(), record.value());}
    }
    
可扩展性

Kafka的分布式架构允许通过增加Broker节点来扩展系统的处理能力。每个主题可以被分为多个分区,每个分区可以分布在不同的Broker上,从而实现水平扩展。

  • 自动分区再平衡:当新增或删除Broker时,Kafka会自动重新分配分区,确保负载均衡。
  • 分区副本分配策略:Kafka允许自定义分区副本的分配策略,以优化性能和可用性。
分区和副本

Kafka的分区和副本机制不仅提高了数据的可用性和容错能力,还增强了系统的可扩展性和并发处理能力。

  • 分区:每个主题可以有多个分区,生产者将消息写入特定分区,消费者从特定分区读取消息。分区内的消息是有序的,但不同分区之间的消息顺序无法保证。
  • 副本:每个分区可以有多个副本,副本之间的数据同步保证了高可用性。Kafka通过选举机制选择Leader副本,所有读写操作都通过Leader进行。

2. Kafka的内部存储结构

Kafka的存储模型是其高效性能的核心。下面详细介绍Kafka的存储结构及其工作原理。

日志(Log)

Kafka中的每个分区都是一个顺序写入的日志文件。生产者将消息追加到日志的末尾,消费者按顺序读取日志中的消息。日志文件的顺序写入和顺序读取特性极大地提高了Kafka的性能。

  • 示例:假设有一个主题“orders”,其分区数量为3。订单数据将按顺序写入到每个分区的日志文件中,消费者可以从不同的分区并行读取数据。
分段(Segment)

为了便于管理和清理数据,每个分区的日志文件被分为多个段(Segment)。每个段都是一个独立的文件,Kafka根据配置的保留策略(如时间或大小)来删除过期的段。

  • 示例:假设每个分段的大小为100MB,当一个分区的日志数据达到100MB时,Kafka将创建一个新的分段。旧的分段可以根据配置的保留策略删除或压缩。
索引文件

为了快速定位消息,Kafka为每个分段创建了索引文件,包括偏移量索引和时间戳索引。偏移量索引用于快速找到特定偏移量的消息,时间戳索引用于快速查找特定时间范围内的消息。

  • 示例:消费者需要从某个偏移量开始读取消息,Kafka通过偏移量索引快速定位到对应的分段和位置,从而提高读取效率。
零拷贝机制

零拷贝(Zero-Copy)是Kafka高效传输数据的关键技术。传统的数据传输需要经过多次数据拷贝,而零拷贝通过以下方式减少了数据拷贝次数:

  • 传统数据传输路径:数据从磁盘拷贝到内核缓冲区,再从内核缓冲区拷贝到用户缓冲区,最后从用户缓冲区拷贝回内核缓冲区,传输到网络。
  • 零拷贝数据传输路径:数据直接从磁盘通过内核缓冲区传输到网络,不经过用户缓冲区。

Kafka通过使用操作系统的sendfile系统调用实现零拷贝,减少了CPU的负担,提高了数据传输效率。

3. Kafka如何保证消息的顺序性

Kafka在分区内保证消息的顺序。每个分区是一个有序的、不可变的日志文件,生产者按顺序将消息追加到分区的末尾。消费者从分区的起始位置或特定偏移量开始顺序读取消息。因此,在单个分区内,消息的顺序得以保证。

  • 示例:假设有一个分区包含消息M1、M2、M3,生产者按顺序发送,消费者按顺序读取,保证了消息的顺序性。

需要注意的是,跨分区的消息顺序无法保证,因此如果应用场景要求严格的全局顺序,需要考虑如何设计分区策略。

4. Kafka的零拷贝机制

零拷贝(Zero-Copy)技术使得Kafka在处理数据传输时更为高效。通过零拷贝,Kafka能够避免传统的数据传输中多次数据拷贝的性能损耗。

  • 传统数据传输路径:在传统的传输方式中,数据需要从磁盘拷贝到内核缓冲区,再从内核缓冲区拷贝到用户缓冲区,最后从用户缓冲区拷贝回内核缓冲区,传输到网络。这种多次拷贝不仅浪费CPU资源,还增加了延迟。

  • 零拷贝数据传输路径:通过使用操作系统的sendfile系统调用,Kafka可以直接将数据从磁盘通过内核缓冲区传输到网络,不经过用户缓冲区。这样减少了数据拷贝的次数,提高了传输效率。

  • 示例:当消费者请求消息时,Kafka Broker使用sendfile系统调用将日志文件中的数据直接传输到网络,避免了传统方式的多次数据拷贝。

5. Kafka消息的幂等性保证

幂等性是指相同操作多次执行的结果是一样的。Kafka通过以下机制实现了消息生产的幂等性:

幂等性生产者

Kafka引入了幂等性生产者(Idempotent Producer),生产者在发送每条消息时,会附带一个唯一的Producer ID(PID)和序列号。Kafka Broker根据PID和序列号判断是否为重复消息,从而丢弃重复数据。

  • 示例:假设生产者发送一条消息M1,由于网络原因,生产者未收到确认,重试发送相同的消息M1。幂等性生产者会附带相同的PID和序列号,Kafka Broker通过检查,识别出这是重复消息,从而丢弃该消息,保证了幂等性。
事务支持

Kafka的事务性(Transactional)消息保证了一个事务内的消息要么全部成功,要么全部失败,从而保证了消息处理的一致性。

  • 示例:一个事务内包含消息M1、M2、M3,如果其中一条消息发送失败,整个事务将回滚,所有消息都不会被消费者看到,保证了消息处理的一致性。

6. Kafka与其他消息中间件的对比

Kafka vs. RabbitMQ
  • 协议:RabbitMQ基于AMQP协议,支持复杂的路由和消息确认机制,而Kafka使用自定义协议,侧重于高吞吐量和低延迟。
  • 吞吐量:Kafka的设计使其在高吞吐量场景下表现优异,而RabbitMQ在处理复杂路由和事务时更为灵活,但吞吐量相对较低。
  • 消息持久化:Kafka通过日志文件持久化消息,保证数据的高可靠性,而RabbitMQ提供多种消息持久化策略,适用于不同需求。
Kafka vs. ActiveMQ
  • 协议:ActiveMQ支持JMS规范,适用于企业级消息传递和集成,而Kafka更加专注于实时数据流处理和高吞吐量场景。
  • 扩展性:Kafka通过分区和副本机制实现高扩展性,适合处理大规模数据流,而ActiveMQ在扩展性方面相对有限。
  • 性能:Kafka在高并发和大数据量场景下表现优异,而ActiveMQ在处理复杂消息传递和事务时更具优势。
Kafka vs. Redis
  • 消息模型:Redis的Pub/Sub功能可以用作消息队列,但其消息是非持久化的,适合短暂消息传递,而Kafka提供持久化存储,适用于需要高可靠性的数据流处理。
  • 性能:Redis在低延迟场景下表现出色,但在高并发和大数据量场景下,Kafka的性能和可靠性更为优越。
  • 适用场景:Redis适用于缓存、短暂消息传递和实时分析,而Kafka适用于日志聚合、实时数据流处理和事件驱动架构。

7. 适用场景

实时数据流处理

Kafka适用于金融交易、社交媒体数据、传感器数据等需要实时处理和分析的场景。

  • 示例:股票交易系统中,每秒钟会产生大量交易数据,Kafka可以将这些数据实时传输到分析系统,帮助做出及时决策。
日志聚合

Kafka可以用于收集和存储来自不同系统和应用的日志数据,便于集中处理和分析。

  • 示例:分布式系统中,各个服务会产生大量日志数据,Kafka可以将这些日志数据汇聚到中央日志处理系统,进行统一分析和监控。
事件驱动架构

Kafka适用于微服务架构中的事件传递和处理,确保服务之间的解耦和高效通信。

  • 示例:电商系统中,用户下单后会触发订单服务、库存服务和支付服务,Kafka可以保证各个服务之间的事件传递和处理,提升系统的响应速度和可靠性。
数据管道

Kafka适用于数据从源头到数据仓库或数据湖的传输和转换,保证数据流的高效和可靠。

  • 示例:企业数据集成过程中,各个业务系统的数据需要汇聚到数据仓库进行分析和挖掘,Kafka可以提供高效、可靠的数据传输通道,保证数据的一致性和完整性。

通过深入了解Kafka的各项功能、内部存储结构及其核心技术,我们可以更好地利用Kafka构建高性能的分布式系统。在实际应用中,根据具体需求选择合适的消息中间件,充分发挥其优势,提升系统的整体性能和可靠性。

这篇关于深度解密Kafka:从内部存储结构到关键技术的全景透视的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1057837

相关文章

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

HDFS—存储优化(纠删码)

纠删码原理 HDFS 默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。 Hadoop3.x 引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。 此种方式节约了空间,但是会增加 cpu 的计算。 纠删码策略是给具体一个路径设置。所有往此路径下存储的文件,都会执行此策略。 默认只开启对 RS-6-3-1024k

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

usaco 1.3 Mixing Milk (结构体排序 qsort) and hdu 2020(sort)

到了这题学会了结构体排序 于是回去修改了 1.2 milking cows 的算法~ 结构体排序核心: 1.结构体定义 struct Milk{int price;int milks;}milk[5000]; 2.自定义的比较函数,若返回值为正,qsort 函数判定a>b ;为负,a<b;为0,a==b; int milkcmp(const void *va,c

搭建Kafka+zookeeper集群调度

前言 硬件环境 172.18.0.5        kafkazk1        Kafka+zookeeper                Kafka Broker集群 172.18.0.6        kafkazk2        Kafka+zookeeper                Kafka Broker集群 172.18.0.7        kafkazk3

基于UE5和ROS2的激光雷达+深度RGBD相机小车的仿真指南(五):Blender锥桶建模

前言 本系列教程旨在使用UE5配置一个具备激光雷达+深度摄像机的仿真小车,并使用通过跨平台的方式进行ROS2和UE5仿真的通讯,达到小车自主导航的目的。本教程默认有ROS2导航及其gazebo仿真相关方面基础,Nav2相关的学习教程可以参考本人的其他博客Nav2代价地图实现和原理–Nav2源码解读之CostMap2D(上)-CSDN博客往期教程: 第一期:基于UE5和ROS2的激光雷达+深度RG

韦季李输入法_输入法和鼠标的深度融合

在数字化输入的新纪元,传统键盘输入方式正悄然进化。以往,面对实体键盘,我们常需目光游离于屏幕与键盘之间,以确认指尖下的精准位置。而屏幕键盘虽直观可见,却常因占据屏幕空间,迫使我们在操作与视野间做出妥协,频繁调整布局以兼顾输入与界面浏览。 幸而,韦季李输入法的横空出世,彻底颠覆了这一现状。它不仅对输入界面进行了革命性的重构,更巧妙地将鼠标这一传统外设融入其中,开创了一种前所未有的交互体验。 想象

自定义类型:结构体(续)

目录 一. 结构体的内存对齐 1.1 为什么存在内存对齐? 1.2 修改默认对齐数 二. 结构体传参 三. 结构体实现位段 一. 结构体的内存对齐 在前面的文章里我们已经讲过一部分的内存对齐的知识,并举出了两个例子,我们再举出两个例子继续说明: struct S3{double a;int b;char c;};int mian(){printf("%zd\n",s

免费也能高质量!2024年免费录屏软件深度对比评测

我公司因为客户覆盖面广的原因经常会开远程会议,有时候说的内容比较广需要引用多份的数据,我记录起来有一定难度,所以一般都用录屏工具来记录会议内容。这次我们来一起探索有什么免费录屏工具可以提高我们的工作效率吧。 1.福晰录屏大师 链接直达:https://www.foxitsoftware.cn/REC/  录屏软件录屏功能就是本职,这款录屏工具在录屏模式上提供了多种选项,可以选择屏幕录制、窗口

Java 后端接口入参 - 联合前端VUE 使用AES完成入参出参加密解密

加密效果: 解密后的数据就是正常数据: 后端:使用的是spring-cloud框架,在gateway模块进行操作 <dependency><groupId>com.google.guava</groupId><artifactId>guava</artifactId><version>30.0-jre</version></dependency> 编写一个AES加密