数据分析师如何建立数据分析里最常用的思维定式

2023-10-08 12:50

本文主要是介绍数据分析师如何建立数据分析里最常用的思维定式,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

“ 一套通用、认可的指标字典,将极大提升公司数据层面的效率,降低沟通成本。”

指标字典、指标体系,都是数据分析师很重要的一方面的工作。今天主要分享一下指标字典相关的内容。

在这里插入图片描述

什么是指标字典

我想,下面的场景,很多人应该并不陌生。

“老刘,咱们本月的成交额才100万啊,得继续努力啊!”

“what?这个月明明成交了150万啊,怎么会才100万?你的数据错了吧?”

“不可能啊,我是自己从数据库取得,100万!”

“我也是对过数啊,150万没错啊!”

到底谁错了?

其实俩人谁都没错,一个统计的是下单金额150万,一个统计的是支付金额100万。因此,是数据分析师或者数据PM错了,错在没有推行一套标准指标字典。

什么是指标字典?

简单地说,其实就是把公司常用的一些指标,通过有组织、有秩序的进行整理,形成公司内各个业务部门均统一认同的标准化体系。就像字典一样,对哪个指标有疑问,就去指标字典中查一查,对齐口径。

指标字典和指标体系有很多异同点。相同点,都是指标相关方面的内容。最大的差异点,就是指标字典可以理解为是一维的、打平的,是通过指标(或者维度)为索引进行检索内容;但指标体系是有业务组织的、成体系的,是有逻辑关系的。

在这里插入图片描述

指标字典的价值

指标字典的价值主要有以下几点。

(1)降低沟通成本,提升沟通效率

这个其实通过上面的案例就能体会到。如果公司内部的口径维持一致,说到“成交额”,就是指“下单金额”或者“支付金额”,就不会存在上面的争论了。

另外,也能确保公司战略的准确执行落地,大家按照一套标准、一套口径来,那么将减少很多不必要的麻烦。避免出现老板提的目标,最后落地的结果却换了一套计算方式。

(2)打破信息隔阂,减少公司重复性建设

其实很多指标的开发是需要成本的。比如“跳出率”、“页面停留时长”等等,背后的开发逻辑都比较复杂,计算成本也不低。其实很多指标反映的是很类似的业务内容,如果针对同一个业务内容,开发多个指标,有时候意义其实不大。

更别说有时候A部门开发了这个指标,由于信息隔阂,B部门又重新开发了一遍。但由于细节逻辑的差别,导致看似是同一个指标,但就是数据上有一点点差异。这种情况更让人抓狂。最好就是一个输出口径,不过这涉及了一套标准数仓的过程,后面再讲。

(3)是公司数据化建设的基础、数据平台搭建的基础

像搭建数仓、数据资产管理平台、BI分析平台,甚至是数据中台,都需要用到指标和维度,那就都需要指标字典作为基础。指标字典作为公司最标准、最规范的口径文档,将是这些平台中指标部分的关键性参考。

03

指标字典都包括哪些部分

一套标准的指标字典,其实包括两部分:指标部分和维度部分。这两部分独立开来是字典;叠加起来,能生成覆盖业务日常用的各种指标。

(1)指标部分

先上个例子。以下是百度统计里指标字典的指标(部分):

这里是对外呈现的,因此只简单的包括了两部分:指标名称和指标定义。但作为一个完善的指标字典,除此之外还要有以下的部分。

指标类型:比如基础指标(最最原始的单纯指标,不可以再细分了,比如订单数、订单金额)、复合指标(在基础指标的基础上通过各种运算生成,比如下单率=下单订单数/加购数)。
限定条件:描述指标的限定条件,比如限定用户都是新用户
限定维度:描述用户在查询该指标时,必须限定的维度,例如时间。
(2)维度部分

维度,是分析的角度、拆分方向。

为了便于理解,同样先上例子。还是百度统计。

这些维度,其实也是互联网常用的一些维度。

当指标叠加上维度,就能生成各种符合业务场景的指标了。例如,最常用的就是时间维度了,“近7天成交金额”,“近7天”就是时间维度,“成交金额”就是指标。也可以同时多个维度叠加指标。例如“iPhone近30天下单订单数”。怎么拆分,很清楚吧?

当然,不是所有的维度+指标都有价值,如何生成有价值的维度+指标,是后面指标体系要分享的。

04

如何搭建行之有效的指标字典

上面讲了这么多指标字典的价值,以及指标字典的内容。看似不麻烦啊,只要把指标和维度一梳理,写份文档不就得了?事实上,没有这么容易。

难点在于落地。如果编了一份字典,束之高阁,和没有也没区别。

那如何推进行之有效的指标字典呢?

(1)要贴合业务的应用场景,从业务出发,不能闭门造车

符合业务的应用才是最根本的出发点。比如公司整体关心的都是围绕成交来的,那指标字典的重点也应该是交易相关;业务关心的是服务体验,那指标体系的重点就是服务体验。

(2)要和各个业务部门进行充分沟通,争取达成公司内共识

很多时候,难以推进统一指标字典的原因,在于不同业务都想用对自己有利的计算指标。这就需要平衡。也需要一些自上而下的推动。说服业务按照你的规范来计算业绩、做统计分析,是个难点。

(3)后续维护好指标字典,推进指标字典的应用

维护也很难。因为不断有新的指标、新的需求产生,要在原有的基础上做好更新维护。同时,也要做好培训,让公司整体都用一套标准说话。

文章转载至 大数据网 :http://www.bt187.com/650.html

这篇关于数据分析师如何建立数据分析里最常用的思维定式的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/165402

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

JS常用组件收集

收集了一些平时遇到的前端比较优秀的组件,方便以后开发的时候查找!!! 函数工具: Lodash 页面固定: stickUp、jQuery.Pin 轮播: unslider、swiper 开关: switch 复选框: icheck 气泡: grumble 隐藏元素: Headroom

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi