CDA二级(Level II)数据分析师——考试内容梳理四

2024-06-19 01:12

本文主要是介绍CDA二级(Level II)数据分析师——考试内容梳理四,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

定额抽样不属于概率抽样类型抽样就是分群抽样

假设检验中,两类错误的概率相加后不等于1,
在样本量增大的条件下,两类错误的概率可以同时减小,
通常控制第一类错误的概率 ;(去真

假设检验使用的是反证法,即先提出一个关于总体参数的假设,然后用样本数据来检验这个假设是否可能为真

在假设检验中,左侧检验为>=,右侧检验为<=,指原假设

区间估计是使用顺推法,即先不对总体参数提出具体假设,而是基于样本统计量来估计总体参数可能存在的区间

假设在T分布下,实际算出来的统计量的值为2.75,P=T.DIST(2.75:2:TRUE)
P值的实质是当前的临界点与分布曲线所围城的曲线面积,求累积分布

在大样本(n)下进行某列(A)均值的区间估计,点估计值为α,显著性水平为0.05
Z0.025为给定的显著性水平下的正太分布的临界值:
EXCEL计算:α±Z0.025*STDEV.S(A:A)/(AQRT(n),大样本为n小样本为n-1

区间估计的结果为点估计的值加减一定倍数的标准差

单因素方差分析中,当p<0.05,则接受备择假设,即至少有两组之间的均值有显著性差异

单因素方差分析的假设
1.每个总体服从正太分布
2.每个总体的方差相同
3.从每个总体中抽取的样本是相互独立的

在不知道具体比例的情况下,通常取P=0.5来计算最大样本量

方差分析主要用来比较两个或多个组的平均数差异,通常自变量是分类型,因变量是连续型

相对于主成分分析而言,因子分析时更偏向解释的分析时,需要进行因子分析,而类似于综合排名、综合打分这样无需进行解释的分析可以进行主成分分析

因子分析通常不适用于预测模型 ,它更侧重于变量的可解释性非预测准确性

进行主成分分析(PCA)之前,如果变量的取值范围相差很大,先对每个变量进行中心化,然后使用相关系数矩阵代替协方差矩阵计算主成分;

多元线性回归模型m,输出模型的残差图:plt.scatter(m.predict(data),m.resid),
resid:残差序列

在进行逻辑回归模型的系数解释时,应借助优势比的概念来进行,所以1作为参考进行解释;

在逻辑回归中,使用classification_report输出分类报告时要求输入的是真实标签和预测标签
classification_report(y,y_hat) 预测;

在逻辑回归模型中,使用约登指数来确定最优阈值,具体是选择使得==(tpr-fpr)==达到最大的时候的阈值作为最优阈值

逻辑回归通过logit模型转换后,输出0-1的概率值

目标函数包括决策变量;

高斯马尔科夫假设中,线性回归对·残差序列·的假设包括:不相关、正态性和同方差

岭回归和Lasso回归属于·收缩方法·,
可以处理多重共线性问题,但会改变原有回归模型

向后回归法要求样本量必须大于自变量的个数,否则模型会过拟合

QQ检验确保扰动性服从正太分布

时间序列差分操作中,包括·阶次差分·主要是用来消除长期趋势的影响,而·步次差·分主要是用来消除季节效应的影响先阶次再步次

在对时间序列模型进行评估时,常用的方法是残差的噪声检验

聚类算法:A(2,3) B(5,-1)
欧氏距离求斜线,结果为5
曼哈顿距离求绝对值,结果为|5-2|+|-1-3|=7

在使用Excel计算假设检验中对应的p值时,使用的函数是DIST(),计算临界值时使用的函数是INV();

根据数据收集方式的分类,分为实验数据和观测数据观测数据又分为追溯型跟踪数据

数据治理域包括:数据战略与规划、组织架构与职责、管理流程与管理制度;

数据应用域包含:监管报表应用、精准营销应用、产品创新应用;

设计逻辑模型时,要遵循范式的设计概念,减少冗余,完整性和可扩展性;

OLAP系统的响应时间合理OLTP系统对响应时间要求高

概念模型描述企业内主要业务的实体及实体间的业务关系,不需要对实体属性具象化;
学校→学生→应用

在信息不足的情况下,对照其它信息源进行修正;

指标不足的情况下,对照其它信息源进行修正;

指标体系包括:根指标、组合指标、派生指标,用户指标属于维度库;
根指标:销售额、净利润
组合指标:客单价=销售额/下单用户数
派生指标:客户流失率=流失用户数/总用户数,流失用户数为组合指标
根指标+维度指标→组合指标+根指标→派生指标

连续型变量
中心标准化Xi-mean(x)/Stdx
归一化Xi-min(x)/max(x)-min(x)

分箱
等宽取值范围一样
等深观察值数量一样

期望频数=(行数/样本量列数/样本量)样本量=(行数列数)/样本量)
卡方贡献=(观察频数-期望频数)2/期望频数) 远大于增大贡献率
卡方检验自由度=(行数-1)
(列数-1)

Python抽样:
1.random.sample:无放回→replace→False
2.random.choice:没有指定replace,默认True,有放回;

apply方法不能用来填充缺失值,lambda函数针对的是一个元素值,而不是一个series对象;

data_raw[‘gender’]=data_raw[‘gender’].replace({‘Male’:1,‘Female’:0}),
可以用于数据编码,并未处理缺失值;

sklearn+PCA:
preprocessing.scale(data):标准化到均值0方差1,不是归一化,是中心化
PCA(n_comporents=9):将数据降维到9个成分,不是降维了
pca.explanined_variance_:输出降维后各主成分的方差
pca.explanined_variance_:各主成分方差占总差分的比例

Python中删除多列的方式为:
df.drop(["A’,‘B’].axix=1),指定列
df.drop(columns=[‘A’,‘B’]),指定列名

这篇关于CDA二级(Level II)数据分析师——考试内容梳理四的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1073592

相关文章

【服务器运维】MySQL数据存储至数据盘

查看磁盘及分区 [root@MySQL tmp]# fdisk -lDisk /dev/sda: 21.5 GB, 21474836480 bytes255 heads, 63 sectors/track, 2610 cylindersUnits = cylinders of 16065 * 512 = 8225280 bytesSector size (logical/physical)

硬件基础知识——自学习梳理

计算机存储分为闪存和永久性存储。 硬盘(永久存储)主要分为机械磁盘和固态硬盘。 机械磁盘主要靠磁颗粒的正负极方向来存储0或1,且机械磁盘没有使用寿命。 固态硬盘就有使用寿命了,大概支持30w次的读写操作。 闪存使用的是电容进行存储,断电数据就没了。 器件之间传输bit数据在总线上是一个一个传输的,因为通过电压传输(电流不稳定),但是电压属于电势能,所以可以叠加互相干扰,这也就是硬盘,U盘

js+css二级导航

效果 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN""http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml"><head><meta http-equiv="Con

SQL Server中,查询数据库中有多少个表,以及数据库其余类型数据统计查询

sqlserver查询数据库中有多少个表 sql server 数表:select count(1) from sysobjects where xtype='U'数视图:select count(1) from sysobjects where xtype='V'数存储过程select count(1) from sysobjects where xtype='P' SE

数据时代的数字企业

1.写在前面 讨论数据治理在数字企业中的影响和必要性,并介绍数据治理的核心内容和实践方法。作者强调了数据质量、数据安全、数据隐私和数据合规等方面是数据治理的核心内容,并介绍了具体的实践措施和案例分析。企业需要重视这些方面以实现数字化转型和业务增长。 数字化转型行业小伙伴可以加入我的星球,初衷成为各位数字化转型参考库,星球内容每周更新 个人工作经验资料全部放在这里,包含数据治理、数据要

如何在Java中处理JSON数据?

如何在Java中处理JSON数据? 大家好,我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿!今天我们将探讨在Java中如何处理JSON数据。JSON(JavaScript Object Notation)作为一种轻量级的数据交换格式,在现代应用程序中被广泛使用。Java通过多种库和API提供了处理JSON的能力,我们将深入了解其用法和最佳

C语言入门系列:探秘二级指针与多级指针的奇妙世界

文章目录 一,指针的回忆杀1,指针的概念2,指针的声明和赋值3,指针的使用3.1 直接给指针变量赋值3.2 通过*运算符读写指针指向的内存3.2.1 读3.2.2 写 二,二级指针详解1,定义2,示例说明3,二级指针与一级指针、普通变量的关系3.1,与一级指针的关系3.2,与普通变量的关系,示例说明 4,二级指针的常见用途5,二级指针扩展到多级指针 小结 C语言的学习之旅中,二级

两个基因相关性CPTAC蛋白组数据

目录 蛋白数据下载 ①蛋白数据下载 1,TCGA-选择泛癌数据  2,TCGA-TCPA 3,CPTAC(非TCGA) ②蛋白相关性分析 1,数据整理 2,蛋白相关性分析 PCAS在线分析 蛋白数据下载 CPTAC蛋白组学数据库介绍及数据下载分析 – 王进的个人网站 (jingege.wang) ①蛋白数据下载 可以下载泛癌蛋白数据:UCSC Xena (xena

中国341城市生态系统服务价值数据集(2000-2020年)

生态系统服务反映了人类直接或者间接从自然生态系统中获得的各种惠益,对支撑和维持人类生存和福祉起着重要基础作用。目前针对全国城市尺度的生态系统服务价值的长期评估还相对较少。我们在Xie等(2017)的静态生态系统服务当量因子表基础上,选取净初级生产力,降水量,生物迁移阻力,土壤侵蚀度和道路密度五个变量,对生态系统供给服务、调节服务、支持服务和文化服务共4大类和11小类的当量因子进行了时空调整,计算了

【计算机网络篇】数据链路层(12)交换机式以太网___以太网交换机

文章目录 🍔交换式以太网🛸以太网交换机 🍔交换式以太网 仅使用交换机(不使用集线器)的以太网就是交换式以太网 🛸以太网交换机 以太网交换机本质上就是一个多接口的网桥: 交换机的每个接口考研连接计算机,也可以理解集线器或另一个交换机 当交换机的接口与计算机或交换机连接时,可以工作在全双工方式,并能在自身内部同时连通多对接口,使每一对相互通信的计算机都能像