本文主要是介绍flink sql 知其所以然(五)| 自定义 protobuf format,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
感谢您的关注 + 点赞 + 再看,对博主的肯定,会督促博主持续的输出更多的优质实战内容!!!
1.序篇-本文结构
大数据羊说
用数据提升美好事物发生的概率~
30篇原创内容
公众号
protobuf
作为目前各大公司中最广泛使用的高效的协议数据交换格式工具库,会大量作为流式数据传输的序列化方式,所以在 flink sql 中如果能实现 protobuf
的 format
会非常有用(目前社区已经有对应的实现,不过目前还没有 merge,预计在 1.14 系列版本中能 release)。
issue
见:https://issues.apache.org/jira/browse/FLINK-18202?filter=-4&jql=project%20%3D%20FLINK%20AND%20issuetype%20%3D%20%22New%20Feature%22%20AND%20text%20~%20protobuf%20order%20by%20created%20DESC
pr
见:https://github.com/apache/flink/pull/14376
这一节主要介绍 flink sql 中怎么自定义实现 format
,其中以最常使用的 protobuf
作为案例来介绍。
-
背景篇-为啥需要 protobuf format
-
目标篇-protobuf format 预期效果
-
难点剖析篇-此框架建设的难点、目前有哪些实现
-
维表实现篇-实现的过程
-
总结与展望篇
如果想在本地直接测试下:
- 在公众号后台回复
-
flink sql 知其所以然(五)| 自定义 protobuf format获取源码(源码基于 1.13.1 实现)
-
flink sql 知其所以然(五)| 自定义 protobuf format获取源码(源码基于 1.13.1 实现)
-
flink sql 知其所以然(五)| 自定义 protobuf format获取源码(源码基于 1.13.1 实现)
-
执行源码包中的
flink.examples.sql._05.format.formats.SocketWriteTest
测试类来制造 protobuf 数据 -
然后执行源码包中的
flink.examples.sql._05.format.formats.ProtobufFormatTest
测试类来消费 protobuf 数据,并且打印在 console 中,然后就可以在 console 中看到结果。
2.背景篇-为啥需要 protobuf format
关于为什么选择 protobuf
可以看这篇文章,写的很详细:
http://hengyunabc.github.io/thinking-about-grpc-protobuf/?utm_source=tuicool&utm_medium=referral
在实时计算的领域中,为了可读性会选择 json
,为了效率以及一些已经依赖了 grpc
的公司会选择 protobuf
来做数据序列化,那么自然而然,日志的序列化方式也会选择 protobuf
。
而官方目前已经 release 的版本中是没有提供 flink sql api 的 protobuf format
的。如下图,基于 1.13 版本。
https://ci.apache.org/projects/flink/flink-docs-release-1.13/docs/connectors/table/overview/
1
因此本文在介绍怎样自定义一个 format 的同时,实现一个 protobuf format 来给大家使用。
3.目标篇-protobuf format 预期效果
预期效果是先实现几种最基本的数据类型,包括 protobuf 中的 message
(自定义 model)、map
(映射)、repeated
(列表)、其他基本数据类型等,这些都是我们最常使用的类型。
预期 protobuf message 定义如下:
2
测试数据源数据如下,博主把 protobuf 的数据转换为 json,以方便展示,如下图:
3
预期 flink sql:
数据源表 DDL:
CREATE TABLE protobuf_source
这篇关于flink sql 知其所以然(五)| 自定义 protobuf format的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!