罗盘-贝壳流量分析平台

2024-03-24 15:20

本文主要是介绍罗盘-贝壳流量分析平台,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

1. 背景

随着贝壳的不断发展,特别是今年年初专门成立了增长线,数据化思维和精细化运营的诉求越来越强烈。各个业务方急需了解自己系统的流量情况,从数据出发优化自己的产品,从而留住用户提高转化;而作为公司高层需要知道集团的整体流量情况,特别是比较核心的月活、商机转化、用户留存和渠道推广等情况,及时作出战略部署和调整,保证公司保持高效稳定的增长。在这样的大背景下我们搭建了一套流量分析平台-罗盘,为集团和各个业务方提供统一、权威的流量数据出口。

2. 面临的问题

  • 日志埋点格式不统一,历史存在多套埋点标准,有些业务方还有自己的日志埋点规范,如何统一标准,兼容历史数据是我们面临的第一个问题;
  • 统计口径不一致,每个业务都有自己的统计口径,数据互相不认可,而从集团层面很难拿到整体的流量数据;
  • 每天TB级别上报数据,各种复杂的数据分析场景,在很多场景下需要保存明细数据才能分析,如何存储明细数据和分析数据是系统架构设计的一大挑战。

3. 总体设计方案

在这里插入图片描述
从纵向看分为数据需求、数据接入、数据处理、数据存储和数据分析五个过程,从横向能看到数据在每个环节中具体的流转过程,下面从纵向的角度展开介绍一下每个过程。

4. 数据需求

数据需求是整个环节的第一步,首先需要有一套全公司标准的埋点规范,并通过公司高层的推动下在各个业务方落地,而规范的落地需要有系统的支撑,埋点管理模块承担了所有埋点信息的申请、埋点文档的生成,辅助业务实现标准化的埋点。

5. 数据接入

主要负责快速接收业务方根据埋点需求上报的日志数据,其中Dig服务接收APP、PC、M站发送数据,通过lua程序将数据落地到kafka,对于APP端为了性能和节省流量会批量打包上传日志文件,Dig还会负责日志文件的解压。

6. 数据处理

  • 首先通过spark任务消费Dig落地的kafka数据,做格式的清洗、历史日志格式的转换、字段的解析,并根据分析需求衍生出更多的维度,比如手机型号、品牌等,还会做日志数据格式的校验,对于不合法的数据进行统计后落地到 DB 中提供查看错误信息;
  • spark清洗后的kafka数据会通过Hangout组建实时落地到ClickHouse提供实时数据分析的能力,Hangout是类似Logstash的日志收集组件,目前支持秒级的数据实时写入;
  • spark清洗的数据也会落地到HDFS,用于离线仓库处理,罗盘目前能解决大部分公共的分析需求,但是对于部分个性化的需求还是需要通过hive sql来解决,同时对于渠道相关的数据目前还无法做到实时处理,目前是通过离线跟渠道数据关联后每天导入到ClickHouse,并会覆盖昨天的实时数据,这也是大数据比较经典实时+离线的Lambda架构。

7. 数据存储

在做罗盘架构设计选型时最核心的就是如何选择一个适合自己的OLAP引擎,我们对比了Spark、Kylin、Druid、Kudu+Impala、ClickHouse等分析引擎的优劣最终选择了ClickHouse,主要基于以下几个方面:

  • 对业务的支撑能力,ClickHouse具备非常强大的分析函数以及自定义函数的支持,可以很好支持罗盘各种场景下的分析功能;
  • 支持SQL查询,业务实现比较简单;
  • 超强的查询性能和数据压缩能力,在真实数据测试时10亿的数据量下简单查询在毫秒级,分组加聚合统计查询在秒级,在大批量的实时写入下并不会影响查询性能;
  • 在部分互联网公司已经有线上的应用案例,比如新浪微博、瓜子二手车等。

8. 数据分析

基于ClickHouse我们最终实现了5大分析能力:

  • 数据概览
    • 可以让集团高层和业务方直观的查看核心流量指标数据,具体效果如图所示:

      在这里插入图片描述

  • 事件分析
    • 可以在任意维度加指标组合来分析业务的PV、UV等数据,该部分底层实现主要是一些复杂的聚合SQL,具体效果如图所示:
      在这里插入图片描述
  • 漏斗分析
    • 分析指定步骤在指定时间周期内每个步骤下用户转化情况,其中每个步骤还可以设置不同的筛选条件,并且支持按照维度分组对比查看数据;该部分分析比较复杂,我们基于ClickHouse自己实现了一个带时间滑动窗口子序列查找算法的自定义函数,通过Patch源码编译到ClickHouse引擎中,具体实现效果如图所示:

      在这里插入图片描述

  • 留存分析
    • 可以看到不同维度下用户每天的流失情况,具体效果如图所示:

      在这里插入图片描述

  • 路径分析
    • 可以看到用户在产品中完整访问路径,帮助用户找到产品关键路径,具体的实现主要通过ClickHouse中的groupArray函数将用户每个session下所有行为聚合成数组,然后根据行为发生的时间对行为做排序和过滤得到每个用户在session下的完整访问路径,具体效果如图所示:

      在这里插入图片描述

9. 埋点检测

为了方便业务方查看自己上报的日志数据,我们还提供了埋点实时检测的功能,通过实时消费kafka的数据让用户可以看到实时上报的数据格式,以及历史上报数据的情况,包括接收的数据量、错误数据量以及错误的详细信息,这个是埋点需求验收的关键环节,需要有PM或者QA的介入做埋点验收,保证上线后的数据质量。

10. 总结

目前罗盘接入了10+的业务线,还有更多的业务线正在接入中,每天6亿+实时数据写入,各种场景下秒级的查询能力。

11. 展望

随着公司业务的发展和更多业务方的数据接入,如何实现业务方快速数据接入、在更大数据量下数据存储和数据查询的优化需要我们不断的努力;在产品功能上深化各个场景下的分析能力,支持用户行为明细和用户分群等高级分析能力;在实现功能的同时将ClickHouse封装成一个公共的基础技术服务,能让其它业务系统方便的接入数据和使用数据,解决业务系统在海量数据存储和复杂查询上的痛点。

原文:罗盘-贝壳流量分析平台

这篇关于罗盘-贝壳流量分析平台的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/841992

相关文章

[职场] 公务员的利弊分析 #知识分享#经验分享#其他

公务员的利弊分析     公务员作为一种稳定的职业选择,一直备受人们的关注。然而,就像任何其他职业一样,公务员职位也有其利与弊。本文将对公务员的利弊进行分析,帮助读者更好地了解这一职业的特点。 利: 1. 稳定的职业:公务员职位通常具有较高的稳定性,一旦进入公务员队伍,往往可以享受到稳定的工作环境和薪资待遇。这对于那些追求稳定的人来说,是一个很大的优势。 2. 薪资福利优厚:公务员的薪资和

springboot家政服务管理平台 LW +PPT+源码+讲解

3系统的可行性研究及需求分析 3.1可行性研究 3.1.1技术可行性分析 经过大学四年的学习,已经掌握了JAVA、Mysql数据库等方面的编程技巧和方法,对于这些技术该有的软硬件配置也是齐全的,能够满足开发的需要。 本家政服务管理平台采用的是Mysql作为数据库,可以绝对地保证用户数据的安全;可以与Mysql数据库进行无缝连接。 所以,家政服务管理平台在技术上是可以实施的。 3.1

比较学习难度:Adobe Illustrator、Photoshop和新兴在线设计平台

从入门设计开始,几乎没有人不知道 Adobe 公司两大设计软件:Adobe Illustrator和 Photoshop。虽然AI和PS很有名,有一定设计经验的设计师可以在早期探索和使用后大致了解AI和PS的区别,但似乎很少有人会系统地比较AI和PS。目前,设计软件功能多样,轻量级和网页设计软件已成为许多设计师的需求。对于初学者来说,一篇有针对性的AI和PS比较总结文章具有非常重要的指导意义。毕竟

高度内卷下,企业如何通过VOC(客户之声)做好竞争分析?

VOC,即客户之声,是一种通过收集和分析客户反馈、需求和期望,来洞察市场趋势和竞争对手动态的方法。在高度内卷的市场环境下,VOC不仅能够帮助企业了解客户的真实需求,还能为企业提供宝贵的竞争情报,助力企业在竞争中占据有利地位。 那么,企业该如何通过VOC(客户之声)做好竞争分析呢?深圳天行健企业管理咨询公司解析如下: 首先,要建立完善的VOC收集机制。这包括通过线上渠道(如社交媒体、官网留言

Python爬虫-贝壳新房

前言 本文是该专栏的第32篇,后面会持续分享python爬虫干货知识,记得关注。 本文以某房网为例,如下图所示,采集对应城市的新房房源数据。具体实现思路和详细逻辑,笔者将在正文结合完整代码进行详细介绍。接下来,跟着笔者直接往下看正文详细内容。(附带完整代码) 正文 地址:aHR0cHM6Ly93aC5mYW5nLmtlLmNvbS9sb3VwYW4v 目标:采集对应城市的

智慧环保一体化平台登录

据悉,在当今这个数字化、智能化的时代,环境保护工作也需要与时俱进,不断创新。朗观视觉智慧环保一体化平台应运而生,它利用先进的信息技术手段,为环保工作提供了更加便捷、高效的管理方式,成为推动绿色发展的重要力量。 一、智慧环保一体化平台的诞生背景 随着工业化进程的加快,环境污染问题日益严重,传统的环保管理模式已经难以满足现代社会的需求。为了提高环保工作的效率和质量,智慧环保一体化平台应运而

说一说三大运营商的流量类型,看完就知道该怎么选运营商了!

说一说三大运营商的流量类型,看完就知道该怎么选运营商了?目前三大运营商的流量类型大致分为通用流量和定向流量,比如: 中国电信:通用流量+定向流量 电信推出的套餐通常由通用流量+定向流量所组成,通用流量比较多,一般都在100G以上,而且电信套餐长期套餐较多,大多无合约期,自主激活的卡也是最多的,适合没有通话需求的朋友办理。 中国移动:通用流量+定向流量 移动推出的套餐通常由通用流量+定向

打包体积分析和优化

webpack分析工具:webpack-bundle-analyzer 1. 通过<script src="./vue.js"></script>方式引入vue、vuex、vue-router等包(CDN) // webpack.config.jsif(process.env.NODE_ENV==='production') {module.exports = {devtool: 'none

基于Spring Boot构建淘客返利平台

基于Spring Boot构建淘客返利平台 大家好,我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿!今天我们将讨论如何基于Spring Boot构建一个淘客返利平台。 淘客返利平台通过整合各种电商平台的商品信息,提供给用户查询和返利功能,从而实现流量变现。以下是实现一个简单的淘客返利平台的步骤。 1. 项目初始化 首先,使用Spri

IPD推行成功的核心要素(十一)技术规划与平台规划促进公司战略成功

随着外部大环境的影响,各企业仅有良好的愿望是不够的。预测并顺应新兴市场和技术的变化,变危机为转机,不断推出强大的产品才是一个公司持续繁荣的根本保障。而高效的产品开发往往是基于某些关键技术,针对市场推出的一个或几个产品系列,这些产品系列通常共用一些产品平台,共用一种或者几种关键技术。当一家企业进入了平稳发展期,已经建立了较为完善的管理制度和产品开发流程,但是依然认为竞争对手是那样强大,那样不可战胜。