sparksteaming专题

理解SparkSteaming窗口函数操作window()

需求场景:      一些业务场景,例如网站记录,每隔1个小时计算最近两个小时的pv量,还有一种业务场景的话先在内存中做累加再更新到redis中做累加,比如说每隔5秒统计最近5秒的数据的总和,再刷到redis中做累加,因为频繁操作redis的话会存在问题。   重要参数: 1.批处理间隔 2.窗口间隔 3.滑动时间间隔   原理介绍:        在Spark Streamin

如何收集SparkSteaming运行日志实时进入kafka中

用过sparkstreaming的人都知道,当使用sparkstreaming on yarn模式的时候,如果我们想查看系统运行的log,是没法直接看的,就算能看也只是一部分。 这里的log分: (1)spark本身运行的log (2)代码里面业务产生的log spark on yarn模式,如果你的hadoop集群有100台,那么意味着你的sparkstreaming的log有