sparksteaming专题

理解SparkSteaming窗口函数操作window()

需求场景：一些业务场景，例如网站记录，每隔1个小时计算最近两个小时的pv量，还有一种业务场景的话先在内存中做累加再更新到redis中做累加，比如说每隔5秒统计最近5秒的数据的总和，再刷到redis中做累加，因为频繁操作redis的话会存在问题。重要参数： 1.批处理间隔 2.窗口间隔 3.滑动时间间隔原理介绍：在Spark Streamin

如何收集SparkSteaming运行日志实时进入kafka中

用过sparkstreaming的人都知道，当使用sparkstreaming on yarn模式的时候，如果我们想查看系统运行的log，是没法直接看的，就算能看也只是一部分。这里的log分：（1）spark本身运行的log （2）代码里面业务产生的log spark on yarn模式，如果你的hadoop集群有100台，那么意味着你的sparkstreaming的log有