本文主要是介绍Flink Forward Asia 2020 第二天小记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
发一下昨天 14 号 Flink Forward Asia 的记录,关于前天的请查看 Flink Forward Asia 2020 第一天小记
14号上午
好未来 批流融合
数据中台全景图
实时平台
批流融合
ODS 实时化
SQL 开发
混合云部署
作业和消费的 kafka 或者写入的存储引擎是否在同一个集群?怎么解决跨云带宽问题?怎么解决跨云网络延迟导致的作业性能损失?
天猫流批一体
流批一体架构
dataphin
流批一体挑战
流批两种执行,结果要一致
追历史数据的情况下,结果要完全一致
趋势图和业务表现要完全一致
实践效果
未来规划
网易游戏
基于 flink 的 etl 场景
痛点
异构数据源
变换的数据 schema
离线实时数据一致
赃数据
ETL 作业执行流程
在 taskmanager 端有线程去轮训配置中心的配置规则,从而可以避免作业的启停
设计
pipeline
根据配置(source/sink/流表)去决定整个作业的 pipeline
元数据持久化方案
整个 etl 的架构其实还是和 HDSpaceX 类似
小米
整体架构
平台功能
自动 DDL
这个我在内部也强调过这个问题,自动拉取元数据来自动生成 DDL,对接不同的系统 schema 拉取元数据,这样自动生成 DDL 很方便
管理 udf
兼容 hive udf
自定义 udf 平台
编写 udf,提交 pr,CI/CD,上传 udf,写入 DB
udf 版本管理
在线调试
完善生态
常见 source/sink/维表 组件
监控告警
metrics report 到 消息队列(talos)和 falcon
日志展示
log4j 新增 appender 把日志数据打到 kafka 后,搜集到 es,用 kibana 查看日志
作业智能诊断
底层开发人员固定,开发作业数量增速太快,运维难度越来越大
稳定性提升
用户文档
培训和分享
14号下午
Flink Pulsar 批流融合
Pulsar 架构
BookKeeper 存储数据
分区中的 segment
不同分去可以单独为每个分区设置不同的 segment 大小?
统一存储视图
segment read,实时读和读历史接口不一样?
Flink 和 Pulsar 融合
根据 segment 来查询
source/sink
pulsar catalog
突破 topic 分区数量,Flink 可以设置超过分区数量的并行度
直接读取底层的 segment
Flink Hudi Kylin 构建湖仓一体
Hudi 插件化架构
hudi 和 flink
两个 pr 代码竟然快上万行
支持多引擎的话,解耦有很多难点
解耦的时候去 spark 化
Flink On K8S
on yarn 的架构
on k8s
flink on k8s 的几种部署模式
flink k8s 原生的 ha,不再依赖 zk
网络的挑战
多租户挑战
Yunikorn
调度
贝壳
平台架构
实时数仓架构
SQL 调试
数据血缘
基于 Apache Flink 的实时监控告警系统关于数据中台的深度思考与总结(干干货)日志收集Agent,阴暗潮湿的地底世界
2020 继续踏踏实实的做好自己
公众号(zhisheng)里回复 面经、ClickHouse、ES、Flink、 Spring、Java、Kafka、监控 等关键字可以查看更多关键字对应的文章。
点个赞+在看,少个 bug ????
这篇关于Flink Forward Asia 2020 第二天小记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!