罗盘-贝壳流量分析平台

2024-03-24 15:20

本文主要是介绍罗盘-贝壳流量分析平台,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

1. 背景

随着贝壳的不断发展,特别是今年年初专门成立了增长线,数据化思维和精细化运营的诉求越来越强烈。各个业务方急需了解自己系统的流量情况,从数据出发优化自己的产品,从而留住用户提高转化;而作为公司高层需要知道集团的整体流量情况,特别是比较核心的月活、商机转化、用户留存和渠道推广等情况,及时作出战略部署和调整,保证公司保持高效稳定的增长。在这样的大背景下我们搭建了一套流量分析平台-罗盘,为集团和各个业务方提供统一、权威的流量数据出口。

2. 面临的问题

  • 日志埋点格式不统一,历史存在多套埋点标准,有些业务方还有自己的日志埋点规范,如何统一标准,兼容历史数据是我们面临的第一个问题;
  • 统计口径不一致,每个业务都有自己的统计口径,数据互相不认可,而从集团层面很难拿到整体的流量数据;
  • 每天TB级别上报数据,各种复杂的数据分析场景,在很多场景下需要保存明细数据才能分析,如何存储明细数据和分析数据是系统架构设计的一大挑战。

3. 总体设计方案

在这里插入图片描述
从纵向看分为数据需求、数据接入、数据处理、数据存储和数据分析五个过程,从横向能看到数据在每个环节中具体的流转过程,下面从纵向的角度展开介绍一下每个过程。

4. 数据需求

数据需求是整个环节的第一步,首先需要有一套全公司标准的埋点规范,并通过公司高层的推动下在各个业务方落地,而规范的落地需要有系统的支撑,埋点管理模块承担了所有埋点信息的申请、埋点文档的生成,辅助业务实现标准化的埋点。

5. 数据接入

主要负责快速接收业务方根据埋点需求上报的日志数据,其中Dig服务接收APP、PC、M站发送数据,通过lua程序将数据落地到kafka,对于APP端为了性能和节省流量会批量打包上传日志文件,Dig还会负责日志文件的解压。

6. 数据处理

  • 首先通过spark任务消费Dig落地的kafka数据,做格式的清洗、历史日志格式的转换、字段的解析,并根据分析需求衍生出更多的维度,比如手机型号、品牌等,还会做日志数据格式的校验,对于不合法的数据进行统计后落地到 DB 中提供查看错误信息;
  • spark清洗后的kafka数据会通过Hangout组建实时落地到ClickHouse提供实时数据分析的能力,Hangout是类似Logstash的日志收集组件,目前支持秒级的数据实时写入;
  • spark清洗的数据也会落地到HDFS,用于离线仓库处理,罗盘目前能解决大部分公共的分析需求,但是对于部分个性化的需求还是需要通过hive sql来解决,同时对于渠道相关的数据目前还无法做到实时处理,目前是通过离线跟渠道数据关联后每天导入到ClickHouse,并会覆盖昨天的实时数据,这也是大数据比较经典实时+离线的Lambda架构。

7. 数据存储

在做罗盘架构设计选型时最核心的就是如何选择一个适合自己的OLAP引擎,我们对比了Spark、Kylin、Druid、Kudu+Impala、ClickHouse等分析引擎的优劣最终选择了ClickHouse,主要基于以下几个方面:

  • 对业务的支撑能力,ClickHouse具备非常强大的分析函数以及自定义函数的支持,可以很好支持罗盘各种场景下的分析功能;
  • 支持SQL查询,业务实现比较简单;
  • 超强的查询性能和数据压缩能力,在真实数据测试时10亿的数据量下简单查询在毫秒级,分组加聚合统计查询在秒级,在大批量的实时写入下并不会影响查询性能;
  • 在部分互联网公司已经有线上的应用案例,比如新浪微博、瓜子二手车等。

8. 数据分析

基于ClickHouse我们最终实现了5大分析能力:

  • 数据概览
    • 可以让集团高层和业务方直观的查看核心流量指标数据,具体效果如图所示:

      在这里插入图片描述

  • 事件分析
    • 可以在任意维度加指标组合来分析业务的PV、UV等数据,该部分底层实现主要是一些复杂的聚合SQL,具体效果如图所示:
      在这里插入图片描述
  • 漏斗分析
    • 分析指定步骤在指定时间周期内每个步骤下用户转化情况,其中每个步骤还可以设置不同的筛选条件,并且支持按照维度分组对比查看数据;该部分分析比较复杂,我们基于ClickHouse自己实现了一个带时间滑动窗口子序列查找算法的自定义函数,通过Patch源码编译到ClickHouse引擎中,具体实现效果如图所示:

      在这里插入图片描述

  • 留存分析
    • 可以看到不同维度下用户每天的流失情况,具体效果如图所示:

      在这里插入图片描述

  • 路径分析
    • 可以看到用户在产品中完整访问路径,帮助用户找到产品关键路径,具体的实现主要通过ClickHouse中的groupArray函数将用户每个session下所有行为聚合成数组,然后根据行为发生的时间对行为做排序和过滤得到每个用户在session下的完整访问路径,具体效果如图所示:

      在这里插入图片描述

9. 埋点检测

为了方便业务方查看自己上报的日志数据,我们还提供了埋点实时检测的功能,通过实时消费kafka的数据让用户可以看到实时上报的数据格式,以及历史上报数据的情况,包括接收的数据量、错误数据量以及错误的详细信息,这个是埋点需求验收的关键环节,需要有PM或者QA的介入做埋点验收,保证上线后的数据质量。

10. 总结

目前罗盘接入了10+的业务线,还有更多的业务线正在接入中,每天6亿+实时数据写入,各种场景下秒级的查询能力。

11. 展望

随着公司业务的发展和更多业务方的数据接入,如何实现业务方快速数据接入、在更大数据量下数据存储和数据查询的优化需要我们不断的努力;在产品功能上深化各个场景下的分析能力,支持用户行为明细和用户分群等高级分析能力;在实现功能的同时将ClickHouse封装成一个公共的基础技术服务,能让其它业务系统方便的接入数据和使用数据,解决业务系统在海量数据存储和复杂查询上的痛点。

原文:罗盘-贝壳流量分析平台

这篇关于罗盘-贝壳流量分析平台的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/841992

相关文章

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

如何解决线上平台抽佣高 线下门店客流少的痛点!

目前,许多传统零售店铺正遭遇客源下降的难题。尽管广告推广能带来一定的客流,但其费用昂贵。鉴于此,众多零售商纷纷选择加入像美团、饿了么和抖音这样的大型在线平台,但这些平台的高佣金率导致了利润的大幅缩水。在这样的市场环境下,商家之间的合作网络逐渐成为一种有效的解决方案,通过资源和客户基础的共享,实现共同的利益增长。 以最近在上海兴起的一个跨行业合作平台为例,该平台融合了环保消费积分系统,在短

Android平台播放RTSP流的几种方案探究(VLC VS ExoPlayer VS SmartPlayer)

技术背景 好多开发者需要遴选Android平台RTSP直播播放器的时候,不知道如何选的好,本文针对常用的方案,做个大概的说明: 1. 使用VLC for Android VLC Media Player(VLC多媒体播放器),最初命名为VideoLAN客户端,是VideoLAN品牌产品,是VideoLAN计划的多媒体播放器。它支持众多音频与视频解码器及文件格式,并支持DVD影音光盘,VCD影

poj 2135 有流量限制的最小费用最大流

题意: 农场里有n块地,其中约翰的家在1号地,二n号地有个很大的仓库。 农场有M条道路(双向),道路i连接着ai号地和bi号地,长度为ci。 约翰希望按照从家里出发,经过若干块地后到达仓库,然后再返回家中的顺序带朋友参观。 如果要求往返不能经过同一条路两次,求参观路线总长度的最小值。 解析: 如果只考虑去或者回的情况,问题只不过是无向图中两点之间的最短路问题。 但是现在要去要回

【区块链 + 人才服务】区块链集成开发平台 | FISCO BCOS应用案例

随着区块链技术的快速发展,越来越多的企业开始将其应用于实际业务中。然而,区块链技术的专业性使得其集成开发成为一项挑战。针对此,广东中创智慧科技有限公司基于国产开源联盟链 FISCO BCOS 推出了区块链集成开发平台。该平台基于区块链技术,提供一套全面的区块链开发工具和开发环境,支持开发者快速开发和部署区块链应用。此外,该平台还可以提供一套全面的区块链开发教程和文档,帮助开发者快速上手区块链开发。

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者

MOLE 2.5 分析分子通道和孔隙

软件介绍 生物大分子通道和孔隙在生物学中发挥着重要作用,例如在分子识别和酶底物特异性方面。 我们介绍了一种名为 MOLE 2.5 的高级软件工具,该工具旨在分析分子通道和孔隙。 与其他可用软件工具的基准测试表明,MOLE 2.5 相比更快、更强大、功能更丰富。作为一项新功能,MOLE 2.5 可以估算已识别通道的物理化学性质。 软件下载 https://pan.quark.cn/s/57