首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
structuredstreaming专题
Spark-StructuredStreaming checkpointLocation分析、优化耗时
目录 1 问题描述2 分析 checkpointLocation 配置 2.1 checkpointLocation 在源码调用链2.2 MetadataLog(元数据日志接口) 3 分析 checkpointLocation 目录内容 3.1 offsets 目录3.2 commitLog 目录3.3 metadata 目录3.4 sources 目录3.5 sinks 目录 4 解决方案 4
阅读更多...
1.8.9 大数据-Spark-StructuredStreaming流处理(socket , kfk)
环境准备1 启动nc传输消息安装见https://blog.csdn.net/tanxiang21/article/details/108760789 $ nc -lk 9999 演练 package com.spark.streaming.structuredimport org.apache.spark.sql.SparkSessionimport org.apache.spar
阅读更多...
2,StructuredStreaming的事件时间和窗口操作
推荐阅读:1,StructuredStreaming简介 使用Structured Streaming基于事件时间的滑动窗口的聚合操作是很简单的,很像分组聚合。在一个分组聚合操作中,聚合值被唯一保存在用户指定的列中。在基于窗口的聚合的情况下,对于行的事件时间的每个窗口,维护聚合值。 如前面的例子,我们运行wordcount操作,希望以10min窗口计算,每五分钟滑动一次窗口。也即,12:00 -
阅读更多...