structuredstreaming专题

Spark-StructuredStreaming checkpointLocation分析、优化耗时

目录 1 问题描述2 分析 checkpointLocation 配置 2.1 checkpointLocation 在源码调用链2.2 MetadataLog（元数据日志接口） 3 分析 checkpointLocation 目录内容 3.1 offsets 目录3.2 commitLog 目录3.3 metadata 目录3.4 sources 目录3.5 sinks 目录 4 解决方案 4

1.8.9 大数据-Spark-StructuredStreaming流处理（socket , kfk）

环境准备1 启动nc传输消息安装见https://blog.csdn.net/tanxiang21/article/details/108760789 $ nc -lk 9999 演练 package com.spark.streaming.structuredimport org.apache.spark.sql.SparkSessionimport org.apache.spar

2，StructuredStreaming的事件时间和窗口操作

推荐阅读：1，StructuredStreaming简介使用Structured Streaming基于事件时间的滑动窗口的聚合操作是很简单的，很像分组聚合。在一个分组聚合操作中，聚合值被唯一保存在用户指定的列中。在基于窗口的聚合的情况下，对于行的事件时间的每个窗口，维护聚合值。如前面的例子，我们运行wordcount操作，希望以10min窗口计算，每五分钟滑动一次窗口。也即，12:00 -