CDA level1 学习笔记(已通过考试)

2023-11-02 03:30
文章标签 学习 笔记 考试 cda level1

本文主要是介绍CDA level1 学习笔记(已通过考试),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

CDA LEVEL1

2023年10月28日已顺利通过一级考试!用时一个月,利用下班休息时间看书、看视频、刷题。
题型:单选、多选、内容相关、案例分析 两小时 60分过
CDA教程学习笔记
数据分析是利用数据来理性思考和决策的过程。
数据分析:是以数据为分析对象,以探索数据内的有用信息为主要途径,以解决业务需要为重要目标。
数据挖掘:是一个跨学科的计算机科学分支,它是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现的模式的经计算过程。

数据分析的本质:
发现和解决问题:现状与期待的落差
1.现状不如原状:风险已经发生(寻因–方案)
2.现状与期待一致:有潜在风险(计划、监控)
3.现状与理想有一定距离:追求更好(创新)
解决问题:
1、紧急处理—解决表面问题
2、避免复发:找到深层原因 (基于事实,使用数据,分解结构)
4、明确因果关系
防范风险:1、确定潜在风险 2、影响因素 3、可承受损失范围 4、策略制定
追求理想:合理的理想 1、明确理想 2、评估是否值得 3、规划性思考 4、行动计划
通用分析思路设计:业务增长模型
1、追求理想:提高客单价或者购买频次
2、防范风险:保持市场份额占比
3、解决问题:客户流失
数据分析四个层次
1、战略规划:内外部数据结合、长期规划的过程。注重方向判断,弱化细节预测。
2、策略分解:根据战略和目标,拆解为可以执行的层面。注重KPI设定
3、市场营销:活动和获客驱动。注重成本核算、效果预测和事后评估。
4、业务运营:关注日常数据。注重监控预警和分析发现。
数据分析常用方法:
结构化的分析方法
事实+前提+逻辑=观点
事实:客观的存在,是百分百成立的
前提:作出推断的依据,是不需要证明的公理
逻辑:作出推理的规则,本质上是数学
结论:最后得到的观点
说出论点,提出论据
事实的提炼:现实的抽象化
收集型数据:正常业务自然产生的数据
创造型数据:事先设计的实验产生的数据
逻辑的推进:逻辑顺序展现了组织思想的分析过程《金字塔原理》麦肯锡
演绎推理:大前提、小前提、结论
时间/步骤:第一、二、三
空间/结构:上海、北京、深圳
程度/重要性:最重要、其次、等等
矩阵分析:两个变量(因素)
选择原点:离散(高/低),连续(中位数/平均值)
四象限:问题的解刨
制定策略:依象限而定

进一步拓展
矩阵分析-----1、增加分段—九宫格
2、增加变量----三变量—RMF(最近一次、金额、频次)
----多变量—聚类
分解式思考:定位与寻因(将事物进行分解,从分支去理解全体)
画八爪图:交易、活跃、关联、投诉、活动、提升
观点的提炼:
观点的产生(论点、论据)但是,结论与论据(定性+定量)太过跳跃,说服力弱。
(注意逻辑推进过程)
结论的表达:听众想听什么
和他预期一致的结论:支持论据
预期之外的新思路:业务价值或启发
和预期相反的结论:难以接受
“唱反调“的技巧:先解释原因,再说明结果
1、原因一定要详细,全面 2、结果要和方案一起出现 3、规避原有预期
事实抽象(收集型数据、创造型数据)+具体场景(前提)+逻辑(陌生问题用矩阵式、寻因、定位用问题分解式)=结论

数据化工作:EDIT数字化的模式
Exploration: 探索(业务运行探索):指标体系。运行状态、具体数据。
Diagnosis: 诊断(问题根原因诊断):性质分析法,数量分析法。
定性和定量相结合,在中微观层面定位和分析问题。
Instruction: 指导(业务策略指导):知识库、策略库、流程模块。优化策略。
Tool: 工具(智能算法工具):数据模型、算法模型、优化模型。

职业道德与行为准则

道德操守:将数据产权、用户利益和机构利益置于个人利益之上,保护数据资产的安全性,遵循数据的真实性、可靠性,禁止技术欺诈、数据造假、非法交易,损害用户和机构利益。
保护和加强自身职业道德操守以及同行的操守。
不参与任何违法行为,包括但不限于:偷窃、欺骗、腐败、挪用或贿赂;
不使用或滥用他人的产权,包括数据资产、知识产权;
不参与诽谤和侮辱;
不宽恕或帮助他人参与违法行为。

行为准则:专业、审慎、高效地完成各项数据分析的业务流程:
全面了解业务背景、痛点、需求,做出分析建议,与团队充分沟通,确定合理业务指标,获取符合要求的源数据。
保持工具与算法的前沿性、适用性、高效性。根据业务需要,选择合理的工具、平台、系统及算法。
不断迭代并优化业务指标与数据模型。
撰写专业可视化报告,逻辑清晰展示项目成果,并做出具有商业价值的建议。
尊重契约,按时按质完整交付工作成果,并对相关数据、代码、结果进行保密。
履行后期义务与责任。完整交付结果后,对客户须进行后期解答、咨询、维护等服务;对机构业务须进行后期跟进、优化、指导建议等工作。
大数据立法、安全、隐私
掌握数据安全法的立场与原则,然后去分析相关实际问题。
合法、正当、必要原则;目的明确原则、知情同意原则;删除权和更正权;
2020年6月28日-30日,《中华人民共和国数据安全法》迎来初次审议。
答题原则:问题存在,逐步推进解决。

数据结构

数据类别:结构化数据、非结构化数据
表格结构数据:Excel、Wps、Numbers
表结构数据:数据库、ETL工具、可视化工具
表格数据层级:一个父级包含多个不同子级对象
一个子级对象只能属于某一个特定父级对象
表格结构数据的数据类型:数值型、文本型、逻辑型
单元格格式属性:
数字格式:决定显示形式
显示格式:决定显示效果

表格结构数据获取方法:
从业务后台数据库系统获取(电子表格工具支持的数据文件:文本文件、电子表格工具文件);
后台数据库系统获取数据流程;
前台操作平台获取数据;(ERP、CRM => 电子表格工具支持的数据文件)
从企业外部渠道获取数据;(CSV文本文件(分隔符“,”),TXT文本文件(分隔符为制表符),
XLSX(excel文件),ET(WPS表格文件))

表格结构数据使用方法:
单元格值的引用方法、单元格区域值的引用方法、表格结构数据查询方法、函数(等号、表达式、参数、返回值)、用查询函数进行查找(VLOOKUP)
表格结构数据的计算方法:直接计算、函数计算、
表结构数据:数据库、ETL工具、可视化工具
事实表、维度表
表结构数据特征:
1.以字段或记录作为数据的引用、操作及计算的基本单位的数据(第一行为标题行、第二行以后称为记录、字段名不能重名、一个字段只能有一种数据类型);
2.所有字段记录行数相同(方形结构、记录行数相同、存在空值、处理缺失值)
处理缺失值1:根据数据类型以及生成信息重要程度的不同,使用不同方法处理缺失值;
(文本型字段:影响不大:不处理或替换;影响大:替换或者删除;
数值型字段:综合考虑该数值型字段所代表的度量意义以及针对该数量型字段进行汇总计算的方式来最终决定对缺失值的具体处理方法)检查“null”
3.一个表有且只有一个主键
物理意义:
单字段主键:由一个字段构成的主键;
多字段主键:又多个字段构成的主键;非空不重复;定位记录行、字段名+主键值定位具体数值;多以“xxID”、“xxNO”、“xx编号”等名称命名
业务意义:表的业务记录单位。在一个数据表中的所有非主键字段都要围绕主键展开
确认主键的方法:如果直接对数据库中的数据进行操作,可以通过SQL语言确认数据表的主要字段。
如果间接在其他数据平台使用表结构数据(数据源是数据库中的数据表,使用时将数据源数据导入到其他平台使用,可以找原数据库中数据表的设计者咨询主键信息,或者直接查看数据表设计者留下的设计资料来对主键字段进行确认。
通过对数据表的业务意义进行分析,推测主键字段后再用物理手段确认推测的主键字段中的记录值是否能够满足“非空”、“不重复”的要求来对主键字段进行确认。
表结构数据获取方法:
应用:数据源-----到-----电子表格工具上使用表格结构数据
引用:表结构数据分析工具上使用表结构数据------到-----数据源数据
关系性数据库管理系统:主要任务是企业业务数据的存储、检索、访问与共享
多层级结构、OLTP、可量化、结构化数据、提供大部分数据源、不善于分析
商业智能系统-BI:用于为企业决策者快速提供完整、准确、深入的数据分析结果,帮助企业决策者实现商业洞察
强于分析、多功能模块构成、两种主要类型、多维数据集、所见即所得
ETL功能:将数据从数据源端经过抽取(Extract)、清洗转换(Transform)之后加载(Load)到数据仓库;
E–抽取:创建与不同数据源间的连接关系,对这些数据源中的数据进行“引用”
T–清洗转换:清洗的主要任务是筛选过滤不完整、错误及重复的数据记录;
对“粒度”不一致的数据进行转换;
对业务规则不一致的数据进行转换
L–加载:将抽取出来的数据经过清洗与转换后加载到数据仓库中进行存储与使用

数据仓库–DW:用来存储分析所需要的不同数据源上的所有相关数据信息;
OLAP:链接信息孤岛、创建多维数据模型(DW中的数据信息—OLAP技术—渠道维度、订单维度、市场维度、多维数据模型)
表结构数据的横向合并:将不同表中的字段信息合并到同一个表中使用。
【通过公共字段匹配、左表与右表、连接方向(左连接、右连接、内连接)、对应关系(决定连接结果行数是对应项乘积的结果)、E-R图(多表连接的鸟瞰图)】

表结构数据的纵向合并:多表中记录信息合并到同一个表中进行使用的合并方式称为纵向合并。
要求:字段个数相同、相同位置字段的数据类型相同;去重合并与全合并
表结构数据的汇总:
数据透视:对零散数据进行汇总分析(维度、量度、汇总计算规则)
汇总数据规则:合计、计数(count非空计数、distinctcount去重计数)、
平均(average函数)、最大值、最小值
数据分析的业务意义:是连接零散数据与人类认知间的桥梁

数据库

概述:关系型数据库(RDBMS)与结构化查询语言(SQL)
关系型数据库以行和列的形式存储数据,这一系列的行和列被称为表,一组表组成了数据库。
(Oracle、DB2、MicrosoftSQL Server、MySQL等)
操作关系型数据库使用的语言叫结构化查询语言(Structure Query Language),简称SQL

MySQL是最流行的关系型数据库管理系统之一。
数据库是表的集合,带有相关的数据;一个表是多个字段的集合;一个字段是一列数据,由字段名字和记录组成。
数据定义语言DDL:是用来对数据库管理系统中的对象进行“增删改查”操作的SQL语句。
定义数据库:操作关系型数据库
创建数据库:create database 数据库名称;
查看创建好的数据库:show create database 数据库名称;
查看所有数据库列表:show databases;
使用数据库:use 数据库名称;
删除数据库:drop database 数据库名称
创建、查看、删除数据表:create table ;show table;drop table ;
数据类型:日期型、文本型、小数型
位与字节:位bit;8个二进位构成1个字节byte
表中的数据类型:
数值型:INT、TINYINT、SMALLINT、MEDIUMINT、BIGINT、FLOAT、DOUBLE、DECIMAL
日期型:DATE:YYYY-MM-DD;DATETIME:YYYY-MM-DD
字符串类型:CHAR、VARCHAR、BLOB或TEXT、
约束条件:主键约束PRIMARY KEY; 非空约束NOT NULL; 唯一约束UNIQUE;
自增字段AUTO-INCREMENT; 默认值DEFAULT

表结构

字段:整列数
记录:整行数
维度:业务角度
度量:业务行为结果
维度字段:文本型
度量字段:数值型
维度表:只包含维度信息的表(产品表、品牌表、客户表)
事实表:既包含维度信息又包含度量信息的表(销售表、采购表、库存表)(进销存表)
表结构数据的正确格式:方形结构、记录行数相同、存在空值、处理缺失值
表格数据获取方法:“应用”表格结构数据、“引用”表格结构数据

多维数据分析

借鉴博主:狐狸的帽子
概述OLAP,针对表数据结构,以字段或记录作为数据的引用、操作和计算的基本单位的数据,
维度----业务角度 维度字段----文本型
度量----业务行为结果 度量字段----数值型
透视三要素:维度、度量、汇总计算规则
数据透视----对零散数据进行汇总分析
维度表----只包含维度信息 ; 事实表----即包含维度信息,也包含度量信息
多维数据模型又叫多为数据集、立方体,指相互通过某种联系被关联在一起的不同类别的数据集合。好处是可以从多角度用数据全面地映射某种业务的实际情况。
多维数据模型创建方法:
相邻两表链接汇总,一表出维度,一表出度量,选择汇总计算规则。
三要素:筛选器方向、对应关系、汇总角色
筛选器方向:分为单向及双向两种、筛选器方向决定维度与度量的出处。
对应关系:分为三类,一对一、多对一、多对多,决定连接汇总的结果。
汇总角色:维度、度量
对于单向筛选器,箭头出发一侧为维度、指向一侧为度量。(维度指向度量)
OLAP连接汇总时,谁出度量,谁就是主表(谁掌握业务结果数据,谁就是老大)
连接信息孤岛的方法:OLAP,链接了不同DW和多维数据集
主键:一个表有且只有一个主键,可单字段或多字段联合主键,一般命名ID,不存在空值和重复值。

三种对应关系
一对一:实际场景中几乎不出现。主键与主键相连、两表有相同主键。
多对多:会出现,但尽量避免。非主键连接非主键,会造成度量值翻倍。
多对一(单项):应尽量使用多对一。单向筛选方向时,一表筛选多表。
Type1:一表出维度,多表出度量
Type2:错误
多对一(双向):
双向筛选方向时,多表可以筛选一表,但是筛选方式和一表筛选多表的不同。
Type1:一表出维度,多表出度量
Type2:一表出度量,多表出维度

跨表筛选
交叉连接 多种连接模式同时存在,但只有一个模式生效。
三种模式(必考):
星型模式----一个事实表与多个维度表相连图片来是在这里插入图片描述
雪花模式----在星型模式基础上,维度表外连更多维度表
在这里插入图片描述
星座模式----多个事实表公用某种维度表
在这里插入图片描述
交叉连接:从以后在那个表到另一张表有多条筛选路径彼此相连接,属于交叉连接模式。
在这里插入图片描述

5W2H 思维模型
5W:What 分析的对象是什么 Why为什么分析 Who 参与角色
Where空间维度 When时间维度
2H:How much 分析的度量 How to do 该如何做

基本透视规则:合计sum 、计数count、平均average、最大值max、最小值min
平均值陷阱:用average求得的总平均值是主键的总平均值。
所有数据除以主键的个数(总行数)
维度嵌套:一个维度下再分一个维度,但不要再结果中显示过多维度信息,可以使用切片器的方法(筛选器,只显示选择的条件)
筛选维度和汇总维度:一个结果包含这两个维度

5种对比计算规则:均比(实际值与平均值)、基准比(实际值与基准值)
目标比(实际值与目标值)、标准比(实际值与标准值)、
占比(部分与总体、不同区域销售额占比
5种时间下汇总规则:MTD月初至当前日期的汇总、QTD季度初与当前日期的汇总、
YTD年初、环比、同比。其中环比同比适用于长周期数据指标。
2种对比汇总规则:对比百分比(实际值/对比值100%)、
差异百分比(实际值-对比值)/对比值
100%
行间透视:针对每行值分别求得整体汇总值,类似于开窗函数

多维透视分析应用:1、需要5W2H确定数据
2、进销存的分别事实表、产品表、订单表
盒须图(箱线图)是一种常用的统计图形,用来显示数据的位置、分散程度、异常值等。箱线图主要包含6个统计量:下线、第一四分位数、中位数、第三四分位数、上限和异常值。
可以知道那些表现好、哪些表现差、比较四分位全距以及线段的长短,可以看出那些群体分散,那些群体更集中。
第一四分位数:数据按照大小顺序排序,处于总观测数25%位置的数据
中位数::数据按照大小顺序排序,处于中间位置,即总观测数50%的数据
第三四分位数:数据按照大小顺序排列,处于总观测数75%位置的数据为第三分位数
下限:第一四分位数 -1.5IQR
上限:第三四分位数 +1.5
IQR
异常值:在上限和下限之外的数据
IQR:表示四分位全距,计算方式是用第三分位数减去第一份位数得到的数值

数据驱动型业务管理方法
如何理解销售漏斗:
粗细(容量)、斜率(销售技巧)、均匀(阶段分布)、流速(销售周期)
销售漏斗模型的业务数据都是动态变化的,将每一个不确定性尽可能变为确定性,用正确的销售决策最大限度地降低销售风险是设计及管理销售漏斗模型的目的所在。
应保证数据的准确性和时效性:销售阶段内容准确、商机金额准确、角色准确、时间准确、商机规模准确、其他维度数据准确

维度信息:产品维度、渠道维度、客户维度
指标信息:总销售额、总销售量、总销售利润
基本指标:求和类、计数类、比较类
常用场景指标—
1、流量相关指标
CPM 每千次曝光收费 CPS按实际销售收费 CPC按点击次数收费
(1)量:
访客数UV Unique Visitor 浏览量PV Page View 访问次数Visits 新访客数
(2)质:
平均访问深度:浏览量 / 访问次数
跳失率:跳出次数 / 访问次数
新访客占比:新访客数 / 访客数
2、转化相关指标 =当前阶段 / 初始阶段 (或上一阶段)*100%
浏览详情页----加购物车----下单----支付成功
3、营运、销售类指标
成交额:GMV、实际销售额、税后销售额、退款额
成交量:实际订单量、销量、退款订单量、上架数量
完成情况:目标达成率、退货率
效果:屏效、商品关联性
4、库存相关指标 供应商—仓库—卖场—消费者
库存周转天数 = 库存量 / 最近n天平均销量 >= 安全库存天数
库龄=存放仓库时长 存货周转次数=平均库存量 / 出库总量
订货满足= 按合理需求正常供货次数 / 产品被要求供货的总次数
缺货率= 缺货次数 / 总订货次数
售罄率 = 1 - 库存金额 / 进货金额
5、绩效类指标
6、客户相关指标
量:注册用户数、浏览用户数、登录用户数
质:活跃用户数、复购用户数、留存率、在线时长

指标的分析方法:横向分析(指定维度下不同的指标值的差异)、纵向分析(时间周期下指标的变化规律)、预警分析(对比当前时点对应维度的指标累计值或瞬时值)
行为效果分析:人、货、场
业务分析模型:RFM、用户忠诚度、漏斗
RFM模型: R最近一次消费、F消费频次、M消费金额。核心方法—用户分类
重要价值用户—保持现状 高 高 高
重要发展用户—提升频次 高 低 高
重要保持用户—用户回流 低 高 高
重要挽留用户—重点召回 低 低 高
一般价值用户—刺激消费 高 高 低
一般发展用户—挖掘需求 高 低 低
一般保持用户—流失召回 低 高 低
一般挽留用户–可放弃治疗 低 低 低
1、获取RFM三个维度下的原始数据
2、定义RFM的评估模型与判断阈值
3、进行数据处理,获取RFM的值
4、参照评估模型与阈值,对用户进行分层
5、针对不同层级用户制定运营策略

用户忠诚度模型
业务分析方法:
1、树状结构分析:可以考虑从总体指标入手,逐层分解总体指标
2、二八分析:即百分之八十的问题是百分之二十的原因造成的。主要用于找出核心问题。
主要特征:
(1)柱形图的数据按数值的降序排列,折线图上的数据有累计百分比数据,并在次坐标轴显示
(2)折线图的起点数值为0%,并且位于柱形图第一个柱子的最左下角
(3)折线图的第二个点位于柱形图第一个柱子的最右上角
(4)折线图最后一个点数值为100%,位于整张图形的最右上角
3、四象限分析:波士顿矩阵
4、同期群分析:衡量指定对象组在某一段时期内的持续性行为差异
同期群:相同时间内,具有相同特征属性的用户。
同期群分析:量化行为指标,分析不同群体的该指标随时间的变化情况。

可视化分析图表:
一、比较类图表:
1、进度完成情况。 图表:油量表、圆环百分比进度图
适合在量化的情况下显示单一的价值和衡量标准;只适合展示数据的累计情况,不适合用于比较不同变量或者趋势的分析。
2、不同项目间的比较。 柱状图(垂直状)、条形图(使用类别名称过长的,总体呈水平状)
用于相对大小的比较 ;更精确,各类数据大小大致相同时,更容易发现细小的差别。
局限:用于较小数据集的分析,分类过多无法展现数据特征。
3、不同项目间的比较:雷达图
显示类别三个或更多的维度的变量对比情况,以及不同类别多个维度的变量差异。
优势:对于查看哪些变量具有相似的值,变量之间是否有异常值
局限:类别过多,会产生覆盖或混乱;很难只管比较图白哦内变量具体的值。
4、不同项目间的比较:树状图
比较层级结构不同级别的值,以矩形显示层次结构级别中的比例。
多列类别构成一个层次结构时,以矩形显示比例。
优势:视觉呈现比较直接
局限:数据按层次结构组织并具有较少类别;无法对不同类别进行精确的比较。
5、地域间数据比较 :地图
局限:数据分布和地理区域大小不对成,容易造成用户对数据误解;
无法对不同类别进行精确的比较;
二、序列类图表:
1、连续、有类别的数据波动:折线图、面积图、柱状图
能很好地体现数据趋势,常用于显示随时间额数值。
优势:折线图、面积图趋势变化直观展示,较柱图更方便的展示多个类别数据,不会显得过于拥挤。
局限:可以多类别比较,但不如主图数据清晰,但类别太多容易混乱,无序的类别无法展示数据特点。
2、各阶段递减过程:漏斗图
三、构成类图表
1、占比构成:饼图、环形图、南丁格尔玫瑰图
展示不同类别数值相对于总数的占比情况;能快速有效地展示数据地比例分布;
局限:分类过多很难比较;饼图不使用被用于精确数据地比较;
南丁格尔玫瑰图—适用各类别数据占比比较接近时
2、多列别部分到整体:堆积图、百分比堆积图
堆叠柱状图可以现实的多个部分到整体地关系;非常适合处理部分与整体地关系;
局限:堆叠柱状图不适用于对比不同分组内同一个分类之间地数据大小;
太多数据系列会使数据地阅读和分辨变得非常困难。
3、展示各成分分布构成情况:瀑布图
表达两个数据点之间数量地演变过程;直观且更具有观赏性
局限:各类别数据差别太大时不宜比较

描述类图表
1、数据分组差异:直方图
专门体现分组数据差异;将数据根据差异进行分类,特点是明察秋毫地掌握差异;
局限:无法以看看出各项累计总和
1、相关性:散点图、气泡图
用来识别变量之间的相关性或用来观察他们的关系。
优势:发现某种趋势,对于查找异常值或理解数据分布也很有效。
局限:数据只有极少的信息或者数据间没有相关性

业务分析报告:
静态报告:WORD PDF PPT
可视化看板:交互式可视化、自由根据业务需求调节,查看多维度数据
数据分析报告的撰写流程:
1、业务理解 2、数据收集 3、数据处理 4、数据分析 5、图标制作 6、报告绘制
数据分析报告设计:
报告类型:
1、日常通用型:短周期、高频、持续性核心数据报表
适用场景:内存饱和度监测、数据传送及时性、网速稳定性等
2、周期回顾型:长周期、低频、持续性综合数据报表
适用场景:年度经营总结、个人季度工作报告、财务年度报表等
3、专题通报型:低频、专项关注点数据报表
适用场景:活动评估报告、渠道用户表现报告、库存亚健康分析等
数据分析报告的撰写注意点:
商业报告撰写注意点:
1、条理清晰,注意报告完整性
2、论点明确、有论必有数,有数必好懂
3、图、表、文字结合
4、名词术语规范统一、未知名词标注解释
5、减少不必要的主观推测,同时需注意语气用词尽量避免生硬霸道
6、切勿为了投其所好而弄虚作假
可视化报表与业务分析报告的差异
业务分析报告 可视化报表
数据结构 表格 表
数据源 单数据源 多数据源
分析侧重点 业务点 业务面
展示形式 静态报告 动态仪表盘
信息获取方式 被动获取信息 主动获取信息
内容特点 深入阐述业务问题并给出合理建议 全面、深入、不提供建议
载体 Word 、PPT BI

可视化报表的创建过程:业务理解、整体设计、数据收集、数据加工整理、搭建多维数据环境
创建复杂汇总规则、数据展现
3、数据收集----------------5W2H思维模型、ETL
4、数据加工整理----------ETL、DW
5、搭建多维数据环境----OLAP
6、创建复杂汇总规则----OLAP
数据展现:
(1)图表与表格相结合-------------------图表看趋势、表格看细节
(2)活用四类可视化方法----------------对比、构成、序列、描述
(3)简洁、易懂----------------------------正确区分汇总维度与筛选维度
(4)围绕一个主题展开-------------------与主题不想管的内容及重复性内容不要放入页面内

数据库应用

创建数据库:Create database test;
查看数据库:show create database test;
使用数据库:use test;
删除数据库:drop database test;

表:
DDL数据定义语言(对数据库管理系统中的对象进行增、删、改、查的操作)
修改表名:alter table…rename…
修改字段数据类型:alter table…modify…
修改字段的排列位置:alter table…modify…first/after…
修改字段名:alter table…chage…
删除字段:alter table…drop…
删除表:drop table…
删除表中的主键约束、唯一约束:alter table…drop…
删除表中的自动增长约束、非空约束、默认约束:alter table…modify…

删除的区别:drop delete truncate
删除数据库:drop database test;
删除数据库中的表:drop table…
删除表中的数据:delete from…where…
删除表中全部数据:truncate…

DML数据操作语言(对表中的记录进行添加、更新、删除等)
DQL数据查询语言
SQL中常用的子句关键词:select、from、where、group by、having、order by 、 limit
分组 组选择条件 排序

错题:

筛选器类函数,是针对表结构数据进行计算的类别。
right是从右侧取连续字符串的函数,是文本函数。
两表通过”公共字段“进行连接,主键、维度、度量字段与两表横向合并操作无关。
场:指交易场景,主要围绕人、货及业务流转,通常为事实表。
度量字段可以是数值型,也可以是文本型。
运算符优先级排序:+ 、>、and、or
销量最好的商品id和销量:
SELECT 商品id,销量 FROM 销量表 WHERE 销量=(SELECT MAX(销量)FROM 销量表)
所有学生的学号及选修的课程号:S作为主表
SELECT S.SNO,CNO FROM S LEFT JOIN SCON S.SNO=SC.SNO
查询计算机系没有不及格成绩的学生学号和姓名:
SELECT SNO,SNAME FROM S WHERE SDEPT='计算机’and SNO NOT IN (SELECT SNO FROM SC WHERE GRADE<60)
逻辑表达式的语法:case when…then…else…end
参数是指总体的某个、特征,总体参数一般用希腊字母表示;
统计量是样本的某个特征,样板统计量一般用英文字母表示;
二项分布:X~N(n,p) E(X)=np D(X)=np*(1-p)
四分位数不受极端值的影响;四分位数是一个局部指标,其衡量了处于中间50%的数据的离散程度,四分位差越大,说明处于中间50%的数据越分散;
购买金额是交易行为的结果,是数值型字段可用来进行常规求和计算;
客户表是维度表的一表,销售人员表也是维度表的一表,两表不存在对应关系;
主键字段非空不重复;
产品表与产品子类别表对应关系为多对一,一个子类别有多个产品
公共字段的字段名不一定相同,但记录值的数据类型必须相同,记录数量可以不相同,记录可以有重复值,只是多对多合并汇总会造成重复计算的结果。
常规求和是对每个维度项下的所有度量值进行汇总计算的方法。
标准比是各个不同维度项下的汇总值与标准维度项的汇总值进行对比。
GMV指的是包含退款额的销售额,实际销售金额为(1-3%)*1000=970,减其他成本700,得成本270
CPC按点击次数收费
CPM按每千次曝光收费
同环比计算方法一般适用于对长周期业务行为结果的观测。
有短周期变化特征,尽量使用同比;没有短周期变化特征,尽量使用环比。
在描述较大时间间隔下的行为水平变化特征时应使用同比;
同环比是维度项自己与自己比。

坪效代表店铺每个面积的效益,属于资产使用效率类指标;
SKU是商品的最小单位,应精确到最细的具体产品上(如某品牌某型号i7+8G电脑)
堆积条形图属于构成类图表
用散点图生成波士顿矩阵效果
可以使用簇状柱形图做出水滴图
日常通用型报告是每日进行汇报,汇报内容及格式基本固定;
RFM模型中,FM值都很高,R值较低,可采取的运营措施是:重要保持用户,进行用户回流。
堆积柱形图属于构成类图表
及格线和优秀线都是基准值,因此可以使用基准比计算规则计算指标。
销售表左连接商品表,销售表与商品表的公共字段是商品id,销售表是多,商品表是一。
商品表左连接品类表,商品表与品类表的公共字段是品类id,商品表是多,品类表是一。
店铺表和店铺日目标表的公共字段是店铺id,店铺表是一,店铺目标表是多。
一个事实表与多个维度表相连是星型模式;多个事实表共用某个维度表是星座模式。
基本目标完成率是绩效类指标。
帕累托图是簇状柱形图和折现图的组合图。
折现图可以呈现用户留存率随时间变化的趋势情况。 折线图属于序列类图表。
分析注册用户的留存率情况,用同期群分析,将用户按照不同注册日期分出不同的同期群,再分析每个同期群用户在注册后的7日内每日留存率。
留存率=每日登录人数 / 首日注册人数
表格结构数据分析工具:Excel WPS Numbers
Tableau属于表结构数据分析工具
ETL是Extract-Transform-Load的首字母缩写,是将分析所使用的数据从数据源端经过抽取(Extract)、清洗转换(Transform)之后加载(Load)到数据仓库的过程。
having与where都是用来指定筛选条件,但区别在于where是对分组前的记录进行筛选,而having是对分组后的结果再进行筛选,所以having可以使用聚合函数作为筛选条件,也可以使用其他普通的标量字段进行筛选,并且使用having的同时也可以使用where。
数据库管理系统DBMS是用于管理数据库的软件,它对数据库进行统一的管理和控制,其主要功能包括对数据库中各种对象的定义,数据的存储、更新、查询调用等操作。
条形图和饼图常用于展示离散型数据的情况,直方图和箱线图均可以展示连续型数据的情况。
数值型数据离散程度的度量:平均差、方差、标准差、离散系数
进销存三个环节属于事实表。
销售漏斗:适用关系型销售企业,商机数由上而下越来越少;商机成功率由上而下越来越高,越推向高阶段离成交越近。
业务指标是按照业务规则来对业务情况进行量化的指标,需按照业务行为量化要求灵活定义。
指标分析是业务描述性分析中观测业务行为结果的重要方法,指标间可组合成为新指标;指标需与统计维度结合使用;指标可以描述财务行为的结果;指标可以描述业务行为的结果。
客户生命周期主要分析新增、留存、流失三阶段;客户生命周期由七点没有终点。
帕累托分析经常用来定位重要对象:发现重要客户群体。
时间下状态变化情况的分析场景:
了解客户生命周期、了解付费流程转化效果、了解不同时间点下的趋势变化
描述销售人员业绩情况好坏:目标完成率、目标比差异百分比
场是指与交易行为相关的业务模块:可以为订单表、订单详情表
杜邦树状分析体系是将总指标根据指标关系拆解成各细分指标,从上到下依次排列形成树状结构。该图的作用有:原因追踪、预估影响、鸟瞰全局
比较类图表:油量表、词云图、染色地图
序列类图表:面积图
BI报表的数据源获取方式是引用,主动权在报表使用者手中。
ACCESS是数据库软件。

这篇关于CDA level1 学习笔记(已通过考试)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/327782

相关文章

Java深度学习库DJL实现Python的NumPy方式

《Java深度学习库DJL实现Python的NumPy方式》本文介绍了DJL库的背景和基本功能,包括NDArray的创建、数学运算、数据获取和设置等,同时,还展示了如何使用NDArray进行数据预处理... 目录1 NDArray 的背景介绍1.1 架构2 JavaDJL使用2.1 安装DJL2.2 基本操

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题

题库来源:安全生产模拟考试一点通公众号小程序 2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题是由安全生产模拟考试一点通提供,流动式起重机司机证模拟考试题库是根据流动式起重机司机最新版教材,流动式起重机司机大纲整理而成(含2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题参考答案和部分工种参考解析),掌握本资料和学校方法,考试容易。流动式起重机司机考试技

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

hdu 2093 考试排名(sscanf)

模拟题。 直接从教程里拉解析。 因为表格里的数据格式不统一。有时候有"()",有时候又没有。而它也不会给我们提示。 这种情况下,就只能它它们统一看作字符串来处理了。现在就请出我们的主角sscanf()! sscanf 语法: #include int sscanf( const char *buffer, const char *format, ... ); 函数sscanf()和

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

软考系统规划与管理师考试证书含金量高吗?

2024年软考系统规划与管理师考试报名时间节点: 报名时间:2024年上半年软考将于3月中旬陆续开始报名 考试时间:上半年5月25日到28日,下半年11月9日到12日 分数线:所有科目成绩均须达到45分以上(包括45分)方可通过考试 成绩查询:可在“中国计算机技术职业资格网”上查询软考成绩 出成绩时间:预计在11月左右 证书领取时间:一般在考试成绩公布后3~4个月,各地领取时间有所不同