数据分析相关知识整理

本文主要是介绍数据分析相关知识整理_--秋招面试版，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

一、关于sql语句(常问）

1）sql写过的复杂的运算

聚合函数，case when then end语句进行条件运算，字符串的截取、替换，日期的运算，排名等等；行列转换；

eg：行列转换

SELECT userid,

SUM(CASE WHEN subject='语文' THEN score END) as '语文',

SUM(CASE WHEN subject='数学' THEN score END) as '数学',

SUM(CASE WHEN subject='英语' THEN score END) as '英语',

SUM(CASE WHEN subject='政治' THEN score END) as '政治'

FROM tb_score

GROUP BY userid

2）sql的逻辑执行顺序

From—on—join—where--group by—with—having—select—distinct—orderby

3）如何优化sql语句

1 避免 select *，只取需要的列；

2 连接列或where子句创建索引，提高读取速度；写的速度变慢；

3 Update不要写成delete+insert，功能相同但是性能差别很大；

4 减少数据类型的转换；

5 减少不必要的子查询和连接操作；如果要使用子查询，not in 、not exist改成left join写法，in 和 exist可以改写 inner join；

6 综合多个表的数据或连接多个表时可以考虑用临时表分布汇总结果；

7 不要对索引字段进行一些操作，函数、模糊查询、数据类型转换、数学运算，会失去索引的效果；

8 多表连接条件，on where order by(排序)

4）外连接、全连接、左连接、右连接的区别

INNER JOIN：返回两个表之间共同满足连接条件的行；交

Left join：左边表中的所有行，以及右边表中与左表中的行匹配的行；

Right join：右边表中的所有行，以及左边表中与右表中的行匹配的行

FULL OUTER JOIN：返回左表和右表中的所有行

取出A、B表连接之后A表中不符合条件的行

SELECT ### FROM A

Left join

SELECT ### FROM B

ON A.column1 = B.column2

Where B. column2 IS NULL

二、Hadoop、Spark和Hive

1）Hadoop：

(核心：Hbase分布式数据库—-管理+MapReduce分布式计算框架+HDFS分布式文件系统—存储)；批处理框架，适用于大规模数据的离线处理；Java编程）

2）Spark：

基于内存的并行计算框架（快），解决了Hadoop中MapReduce计算模型延迟过高的问题；

可以批处理、交互式处理、流处理，更加灵活地处理离线和实施任务；

多种编程语言；Python、Java、R等；

3）Hive：

数据仓库工具，允许用户查询和分析存储在Hadoop上的数据

三、数据仓库和数据库的区别

1）设计目标：前者支持数据分析和决策制定存储大量历史数据，后者用于管理和维护操作性数据

2）数据类型：前者多种维度，历史数据、汇总数据、维度数据和事实数据；后者主要包含事务性数据，用户信息、订单、交易信息等

3）数据结构：前者星型或雪花型数据模型，包括事实表和维度表，支持复杂的多维数据分析；后者通常是关系型数据模型，表格存储，表格通过关系链接

4）数据量：前者大规模，后者存储量级相对较小的数据集

5）更新频率：前者批处理，更新频率低；后者通常实施更新，适用交互性操作

四、数据库常见数据结构

1）关系型数据，表是基本数据单元，主键唯一标识，外键建立表之间的关联关系；

2）星形数据结构，事实表和维度表，事实表通常是一些指标，例如，营业额、库存量，维度表是描述事实表的信息，如时间、位置、产品；查询性能比较高，但因为只有一个维度无法处理复杂的多维关系，且维度表的数据冗余比较多；

3）雪花型数据结构，星型进一步规范化，维度表进一步分解成多个子维度表，层次结构，减少数据冗余处理多维数据关系，查询起来更复杂多表链接，没那么快

五、非结构化数据的处理和分析

1）数据收集（爬虫、抓取）

2）文本分析、图像处理、音频处理

3）数据转换（数据标准化、特征向量）

六、NLP一般步骤

1）收集和清洗文本数据，删除不需要的字符、停用词、标点符号

2）特征提取，向量化，TF-IDF，词嵌入、词袋模型

TF(t,d)= 词项 t在文档 d 中出现的次数/文档 d 中的总词项数

IDF(t)=log(文档集合的总文档数/包含词项 t 的文档数+1) 评价重要性

3）选择模型：svm、RNN、CNN等

4）训练和评估

七、评价分类常见的指标和公式

准确率=正确的样本数/总样本数

精确度= (真正例) / (真正例 + 假正例) ，预测为正中实际为正的比例

召回率= (真正例) / (真正例 + 假负例) ，实际为正中预测为正的比例

F1 分数（F1 Score），综合评价准确率和召回率=2（准确率*召回率）/（准确率+召回率）

ROC 曲线：真正例率与假正例率之间的关系，值越大性能越好

PR 曲线：不同的分类阈值绘制精确度与召回率之间的关系图；AUC 是 PR 曲线下的面积，用于衡量分类器在不同精确度和召回率下的性能

八、分类问题中样本类别不均衡怎么办

1）欠采样、过采样;

2）设置样本权重;

3）使用不同的指标评估(精确度、召回率、F1 分数、ROC-AUC等);

4）集成学习方法处理不均衡的问题

九、假设检验原理

原假设和备择假设，一般原假设没有显著差异，备择假设有显著差异；

基于样本数据计算统计量，设定显著性水平alpha，落在拒绝阈，拒绝原假设；

两类错误：

第一类，原假设为真，拒绝原假设，alpha越低，第一类风险越小；第二类风险越大

第二类，备择假设为真，但是接受原假设；

P值小于显著性水平，拒绝原假设，接受备择。

十、LSTM门控机制

1）遗忘门（Forget Gate）：

遗忘门决定了在当前时间步骤应该保留多少过去的信息。它接收当前输入和上一个时间步骤的隐藏状态作为输入，并输出一个0到1之间的值，表示要保留的信息比例。具体来说，遗忘门的计算包括一个Sigmoid激活函数，它的输出乘以上一个时间步骤的细胞状态，以确定要保留的信息。

2）输入门（Input Gate）：

输入门决定了要更新细胞状态的哪些部分。它接收当前输入和上一个时间步骤的隐藏状态作为输入，并输出一个0到1之间的值，表示每个部分的更新比例。输入门的计算包括一个Sigmoid激活函数，以确定要更新的部分，以及一个Tanh激活函数，用于生成新的候选值。

3）输出门（Output Gate）：

输出门决定了当前时间步骤的隐藏状态应该是什么。它接收当前输入和上一个时间步骤的隐藏状态作为输入，并输出一个0到1之间的值，表示要输出的信息比例。输出门的计算包括一个Sigmoid激活函数，以确定要输出的部分，以及一个Tanh激活函数，用于生成最终的隐藏状态。

十一、Pyecharts的一些可视化函数

Liquid、gauge、Funnel、heatmap、wordcloud、Bar条形图、Line折线图、scatter散点图、EffectScatter涟漪散点图、boxplot箱型图、Pie饼图、Radar雷达图

这篇关于数据分析相关知识整理_--秋招面试版的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

数据分析相关知识整理_--秋招面试版

一、关于sql语句(常问）

二、Hadoop、Spark和Hive

三、数据仓库和数据库的区别

四、数据库常见数据结构

五、非结构化数据的处理和分析

六、NLP一般步骤

七、评价分类常见的指标和公式

八、分类问题中样本类别不均衡怎么办

九、假设检验原理

十、LSTM门控机制

相关文章

数据库面试必备之MySQL中的乐观锁与悲观锁

JavaScript Array.from及其相关用法详解(示例演示)

Mysql中深分页的五种常用方法整理

国内环境搭建私有知识问答库踩坑记录(ollama+deepseek+ragflow)

Mysql中InnoDB与MyISAM索引差异详解(最新整理)

StarRocks索引详解(最新整理)

Redis的Zset类型及相关命令详细讲解

Linux使用fdisk进行磁盘的相关操作

关于Maven生命周期相关命令演示

numpy求解线性代数相关问题