首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
sparksteaming专题
理解SparkSteaming窗口函数操作window()
需求场景: 一些业务场景,例如网站记录,每隔1个小时计算最近两个小时的pv量,还有一种业务场景的话先在内存中做累加再更新到redis中做累加,比如说每隔5秒统计最近5秒的数据的总和,再刷到redis中做累加,因为频繁操作redis的话会存在问题。 重要参数: 1.批处理间隔 2.窗口间隔 3.滑动时间间隔 原理介绍: 在Spark Streamin
阅读更多...
如何收集SparkSteaming运行日志实时进入kafka中
用过sparkstreaming的人都知道,当使用sparkstreaming on yarn模式的时候,如果我们想查看系统运行的log,是没法直接看的,就算能看也只是一部分。 这里的log分: (1)spark本身运行的log (2)代码里面业务产生的log spark on yarn模式,如果你的hadoop集群有100台,那么意味着你的sparkstreaming的log有
阅读更多...