Flink Forward Asia 2020 第二天小记

本文主要是介绍Flink Forward Asia 2020 第二天小记，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

发一下昨天 14 号 Flink Forward Asia 的记录，关于前天的请查看 Flink Forward Asia 2020 第一天小记

14号上午

好未来批流融合

数据中台全景图

实时平台

批流融合

ODS 实时化

SQL 开发

混合云部署

作业和消费的 kafka 或者写入的存储引擎是否在同一个集群？怎么解决跨云带宽问题？怎么解决跨云网络延迟导致的作业性能损失?

天猫流批一体

流批一体架构

dataphin

流批一体挑战

流批两种执行，结果要一致
追历史数据的情况下，结果要完全一致
趋势图和业务表现要完全一致

实践效果

未来规划

网易游戏

基于 flink 的 etl 场景

痛点

异构数据源
变换的数据 schema
离线实时数据一致
赃数据

ETL 作业执行流程

在 taskmanager 端有线程去轮训配置中心的配置规则，从而可以避免作业的启停

设计

pipeline

根据配置（source/sink/流表）去决定整个作业的 pipeline

元数据持久化方案

整个 etl 的架构其实还是和 HDSpaceX 类似

小米

整体架构

平台功能

自动 DDL

这个我在内部也强调过这个问题，自动拉取元数据来自动生成 DDL，对接不同的系统 schema 拉取元数据，这样自动生成 DDL 很方便

管理 udf

兼容 hive udf
自定义 udf 平台

编写 udf，提交 pr，CI/CD，上传 udf，写入 DB

udf 版本管理

在线调试

完善生态

常见 source/sink/维表组件

监控告警

metrics report 到消息队列（talos）和 falcon

日志展示

log4j 新增 appender 把日志数据打到 kafka 后，搜集到 es，用 kibana 查看日志

作业智能诊断

底层开发人员固定，开发作业数量增速太快，运维难度越来越大

稳定性提升
用户文档
培训和分享

14号下午

Flink Pulsar 批流融合

Pulsar 架构

BookKeeper 存储数据

分区中的 segment

不同分去可以单独为每个分区设置不同的 segment 大小?

统一存储视图

segment read，实时读和读历史接口不一样?

Flink 和 Pulsar 融合

根据 segment 来查询
source/sink
pulsar catalog
突破 topic 分区数量，Flink 可以设置超过分区数量的并行度
直接读取底层的 segment

Flink Hudi Kylin 构建湖仓一体

Hudi 插件化架构

hudi 和 flink

两个 pr 代码竟然快上万行
支持多引擎的话，解耦有很多难点
解耦的时候去 spark 化

Flink On K8S

on yarn 的架构

on k8s

flink on k8s 的几种部署模式
flink k8s 原生的 ha，不再依赖 zk
网络的挑战
多租户挑战

Yunikorn

调度

贝壳

平台架构

实时数仓架构

SQL 调试

数据血缘

基于 Apache Flink 的实时监控告警系统关于数据中台的深度思考与总结（干干货）日志收集Agent，阴暗潮湿的地底世界
2020 继续踏踏实实的做好自己

公众号(zhisheng)里回复 面经、ClickHouse、ES、Flink、 Spring、Java、Kafka、监控 等关键字可以查看更多关键字对应的文章。

点个赞+在看，少个 bug ????

这篇关于Flink Forward Asia 2020 第二天小记的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！