本文主要是介绍数分面试常考知识点,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
目录
一、网易2021年校招提前批(两道业务题、两道SQL简单题略)
1、第一题:分析思路+指标选择
2、 第二题:分析思路+指标选择
二、小红书2020校招数据分析笔试题卷四
1、第一题:一元二次方程
2、第二题:几何分布叠加问题
3、第三题:EXCEL字符串合并:&
4、第四题:不重置抽样的方差计算
5、第五题:环比的计算
6、第六题:概率论—互斥
7、第七题:机器学习—判别模型
8、考点:概率论
9、考点:统计学中的抽样估计、时间序列的基本概念
10、考点:机器学习
11、考点:机器学习的应用
12、考点:假设检验的应用流程
13、考查sumifs、countifs、pow
14、考点:left join、right join、union、full join
15、考点:AB Test评估指标选择
16、考点:异常分析
17、典型考点:异常分析(指标上升下降原因分析)
18、开放性题目
19、假设检验
20、预估类问题
21、开放性问题
(PS:数分需要会:业务题、SQL、概率论、python、机器学习、EXCEL)
一、网易2021年校招提前批(两道业务题、两道SQL简单题略)
1、第一题:分析思路+指标选择
花呗分期作为支付宝的一个支付手段,已经普遍被大家使用。网易严选作为网易旗下自营电商品牌,也开通了花呗分期的功能,运营希望通过花呗分期免息的活动,促进销售额的增长、提升用户体验。在前期活动设置的时候,运营同学找到了作为数据分析师的你,希望可以解决下面的问题:
1、分期门槛(如满**元免息)、免息期数(3期、6期、12期等)要如何设置,请列出具体分析的思路和理由。
2、花呗免息的活动效果需要如何评估,请列出具体评估的指标和方向。
牛客上的答案:
1.对于免息门槛:
方法一、从影响用户是否购买出发。假设:
a.免息门槛越低,用户越倾向于分期购买;
b.免息门槛低于某一阈值后,分期不再影响用户是否购买。所以问题的关键是找到这个阈值:从历史数据中计算每个免息门槛对应的购买率,找到购买率不再增加的拐点。
方法二、从提高购买用户消费额度出发。假设:
a.免息门槛能刺激用户产生更多消费;
问题的关键是评估用户日常的消费能力,在这个基础上提高一些,设置为免息门槛:通过用户历史购买行为,计算用户每月平均消费水平,在这个基础上提高特定比例(如20%),设置为该用户的免息门槛。
对于免息期数:
免息期越长用户越倾向于分期购买,但平台需要支付更多利息给花呗。
如果单纯从营业额增长的角度,选择免息期数最长的方案合适。
2.活动效果评估
指标上应该比较参与免息活动和不参与免息活动的用户,在活动期间的人均营业额。
可选的方案是在活动中随机保留一定比例的用户(如5%)不参与免息活动,以这部分用户的表现作为对照的标准即可评估活动效果。
或者在活动初期流量平均分配到两组中,确定活动效果好后再将流量全部引入免息活动中。
2、 第二题:分析思路+指标选择
各大平台相继推出和迭代付费会员策略,如优酷会员、京东PLUS会员、网易云音乐黑胶VIP等,通过提供丰富的权益吸引用户成为付费会员,提升用户黏性和忠诚度。请围绕付费会员回答以下问题:
1.以网易云音乐黑胶VIP为例,运营同学希望推出活动吸引用户开卡。一种方式是年卡买一送一,即支付一年的年费享受两年的会员权益;一种方式是年卡费用五折。你认为哪种方式更好?请给出具体的理由。
2.网易云音乐和网易严选推出了联合会员,即购买云音乐的黑胶VIP,可以赠送一年的严选Pro会员。作为分析师,你将如何评估联合会员活动的成本收益?请给出具体的评估指标。
牛客上的答案:
1.年卡五折好。 优势主要有以下几点:
a.吸引潜在用户:买一送一更吸引产品的长期忠诚用户购买,但这部分用户本身黏性比较高,我们更应该关注把潜在用户培养成长期忠诚用户,直接打折价格优势更明显。
b.突出价格优势:打折是立刻生效的优惠,更能刺激用户消费,相比起第二年才能拿到的权益,用户更容易被眼前的直接利益吸引。
2. 收益有两个部分:a.卖会员卡得到的收入;b.成功转化为严选用户节省的获客成本;成本有两个部分:a.网易云音乐每个会员平均的成本;b.这部分用户从严选平台薅走的羊毛;利润=卖会员卡得到的收入+成功转化为严选用户节省的获客成本-网易云音乐每个会员平均的成本-这部分用户从严选平台薅走的羊毛。
二、小红书2020校招数据分析笔试题卷四
1、第一题:一元二次方程
如果在小红书商城中某一商户给一产品定价,如果按照全网最低价500元定价,那么客人就一定会选择在此购买;价格每增加1元,客人的流失的可能性就会增加1%。那么该商户给客人报出最优价格为(550元)
解析:最低价500,即为成本。要求定价为多少时,利润能最大。设价格涨幅为x,利润为y,M为顾客数未知,但是一个固定值。求二元一次方程y=M(1-x/100)x的最大值。
2、第二题:几何分布叠加问题
在一次集卡活动中,有5种不同的卡片以相同的概率出现,每分享一次笔记就可以得到一张卡片,集齐所有卡片所需点赞的笔记数量的期望,与以下哪个结果最为接近?(11)9,11,13,15
解析:这是一个几何分布叠加问题, 几何分布的数学期望E(X)=1/p(成功概率的倒数)。第一次拿到了1种,期望是1,第二次拿到剩余4种中的1种,p=4/5,E=5/4,第三次拿到剩余3种中的1中,p=3/5,E=5/3,第四次拿到剩余2种中的1中,p=2/5,E=5/2,第五次拿到剩余1种,p=1/5,E=5。总的期望就为:1+5/4+5/3+5/2+5,约等于11.42
3、第三题:EXCEL字符串合并:&
在excel中如何将列a的字符值与列b的字符值合并为一个字符串c()答案:c=a&b
4、第四题:不重置抽样的方差计算
调查全公司1000名员工平均交通费用支出情况,采取不重置抽样,从其中抽取100名进行调查。根据以往调查可知总体方差s²为100,则样本均值的方差为:答案(100/111)
5、第五题:环比的计算
已知2-5月环比增长速度分别为5.6%、7.1%、8.5%、6.4%,则5月对比1月的增速是:
答案:(105.6%×107.1%×108.5%×106.4%)-100%
6、第六题:概率论—互斥
“鱼与熊掌不可得兼”的意思是:得熊掌就不得鱼 (互斥)
7、第七题:机器学习—判别模型
判别模型有哪些?选项:隐马尔科夫、决策树、支持向量机、朴素贝叶斯、最大熵模型
答案:
常见的判别式模型有逻辑回归、线性回归、支持向量机、提升方法、条件随机场、人工神经网络、随机森林、感知器、最大熵模型等。
典型的生成模型包括:高斯混合模型和其他混合模型、隐马尔可夫模型、随机上下文无关文法、朴素贝叶斯分类器、AODE分类器、潜在狄利克雷分配模型、受限玻尔兹曼机
知识点:判别模型是一种对未观测数据y与已观测数据x之间关系进行建模的方法,直接对条件概率p(y|x;θ)建模。与生成模型不同,判别模型不考虑x与y间的联合分布。但对于诸如分类和回归问题,由于不考虑联合概率分布,采用判别模型可以取得更好的效果。生成模型是所有变量的全概率模型,而判别模型是在给定观测变量值前提下目标变量条件概率模型。因此生成模型能够用于模拟(即生成)模型中任意变量的分布情况,而判别模型只能根据观测变量得到目标变量的采样。判别模型不对观测变量的分布建模,因此它不能够表达观测变量与目标变量之间更复杂的关系。因此,生成模型更适用于无监督的任务,如分类和聚类。(ps:下图摘自牛客网)
8、考点:概率论
X服从区间(1,5)上的均匀分布,求对X进行3次独立观测中,至少有2次的观测值大于2的概率:0.84375(或27/32)
9、考点:统计学中的抽样估计、时间序列的基本概念
抽样估计的优良标准有三个:无偏性、 一致性、有效性
影响时间序列的因素有四个: 长期趋势、季节变动、循环波动、不规则波动
10、考点:机器学习
请给出三种常见的聚类算法
正确答案:
1 K-means聚类、K-中心点聚类、CLARANS算法,DIANA算法、BIRCH算法、Chameleon算法
2 EM算法
3 OPTICS算法、DBSCAN算法
11、考点:机器学习的应用
小红书人脸识别系统识别当前进入小红书公司人员的身份,此系统一共识别三种不同的人员:员工,送餐员和陌生人。哪种学习方法适合此种应用需求:答案:多分类
12、考点:假设检验的应用流程
小红书在首页上线了一个新的模块,目的是为了提升用户的浏览时长,请设计一套分析方案,衡量模块上线后对用户停留时长是否有提升?
牛客答案:
采用假设检验的方法衡量模块上线后对用户停留时长是否有提升。假定,用户停留时长为stay_time。将用户均匀分为两组,一组为对照组,一组为实验组。 对照组不上线新模块,实验组上线新模块,采集对照组和实验组用户每天的浏览时长,分别为stay_time_X0,stay_time_X1
(1)原假设:用户停留时长没有提升,即,stay_time_X0 = stay_time_X1
备择假设 :用户停留时长提升,即,stay_time_X0 < stay_time_X1
(2)选取5%为显著性水平临界值
(3)计算最小样本量,采集数据
考虑到指标的周期性,时间周期选取2周。采集实验开始前一天,两组用户的数据,是否存在明显差异,如无,继续观察前两天的数据,是否存在异常。 如无异常,继续采集数据。(4)使用T检验,计算p值
(5)得出结论:若p值<5%,则推翻原假设,备择假设成立,新的模块能显著提升用户停留时长。反之,不能推翻原假设,不能判断新的模块是否能提升用户停留时长。
13、考查sumifs、countifs、pow
=SUMIFS(sum_range,criteral_range1,criterl1,criteral_range2,criterl2,...)
- sum_range:指进行求和的单元格或单元格区域(求和区域)
- criteral_range:条件区域,在求和时,该区域将参与条件的判断
- criterl:通常是参与判断的具体一个值,来自于条件区域
=COUNTIFS(criteria_range[N],criteria[N])
- criteria_range[N]:指要进行计数的单元格或单元格区域(条件区域)
- criteria[N]:条件值。
复合增长率的计算:(现有价值/基础价值)^(1/期数) - 1
pow(160/120,1/3)-1
14、考点:left join、right join、union、full join
Oracle支持full join,mysql是不支持full join的,等价于左外连接+ union+右外连接实现
15、考点:AB Test评估指标选择
经过一番研究后,我们开发出了商品页面上“相关商品”模块的一个新的推荐算法,并且打算通过AB Test(50%用户保留原先的算法逻辑为控制组,50%用户使用新的算法逻辑为实验组)来对新的算法效果进行评估。假设你是此次实验的数据分析师,请问你会如何评估控制组和实验组的表现?(假设需要数据都可取到)请按重要性列出最重要的三个指标并给出你的分析过程/思考。
答案:
(1)指标:用户实际的GMV、进入商品详情页后加购/立即购买的转化率、CTR(相关商品卡片的点击/曝光)。【销售总额(GMV),反映新的推荐算法是否为商家带来更高的利润。相关商品的点击量,直观的反映新的推荐算法推荐的商品是否吸引顾客。进入相关商品页面后的付费率,反映推荐商品是否是顾客所需要的。】
(2)方法:假设检验 。
1.设原假设为使用新的推荐算法后上述指标降低或不变,备择假设为使用新的推荐算法后上述指标增加
2.选择显著性水平临界值为5%,采集数据
选择周期时间为2周,在数据采集前检查两组数据是否有明显差异,若无,继续采集数据
3.使用T检验,计算P值
4.分析结论,如果P值小于5%,那么原假设不成立,备择假设成立,即使用新算法后指标提升,
反之无法推翻原假设,不能证明使用新算法后指标提升
16、考点:异常分析
如果我们发现,某店铺的X品类在今年3月的销量,比去年3月的销量下降了50%,如果你是负责此次分析的数据分析师,你会如何分析?请写出你的分析思路/过程/想法。
总结:针对异常分析,1)判断数据的正确性;2)判断数据下降是否是正常现象,看同比、环比;3)进行外部分析:环境分析、时间分析、竞品分析;4)进行内部原因分析:用户维度、商品维度,在维度分析阶段进行指标拆解。
答案1:
- 检验数据是否正确
- 指标拆分
- 销量=日均销量*30=订单数*(1-订单取消率-退货率)*30;
- 退货率=退货数/订单总数,进一步分析退货原因:质量问题/恶意退货/客服服务问题;
- 订单取消率=订单取消数/订单总数,进一步分析订单取消原因,竞品性价比高/服务好/店面设计好/店铺评分高
- 订单数=咨询数*(1-咨询流失率)+加入购物车*(1-购物车流失率)+直接下单 咨询流失定位原因回复不及时/不准确
- 用户群体,老用户销量 新用户销量 不同渠道转化率
将指标与同期进行对比,定位问题
同时关注关键指标GMV是否下降明显
答案2:2020年小红书校招数据分析笔试题_无精疯的博客-CSDN博客
排除数据本身的问题:首先是确定数据是否正确,数据来源、口径是否无误,然后再接下去分析;
确认跌幅合理性:下降了50%,结合环比,同比,同期群分析它的跌幅是否合理;
分析外部原因:有哪些可能的外部原因和下降有关,有关到什么程度,比如是否是其他相关部门进行了产品迭代、运营策略的调整、设备故障等因素;
分析内部原因:这就可以从多个维度进行分析了,比如从用户、产品、市场的角度分别分析,还可以进行指标拆分;
确认影响程度:确认到底是哪一环节出了问题导致指标的下降,该指标的下降对关键指标有无影响,影响程度如何;
制定巩固措施:以后怎么避免该类问题发生。
17、典型考点:异常分析(指标上升下降原因分析)
某APP 7月份DAU比同年5月份上涨了10%,作为数据分析师,你会从哪些方面分析DAU增长的原因? 请列举至少两种以上拆分思路。
答案1:
1. 按短期和长期因素拆分
此处DAU上升现将其拆分为长期因素和短期因素,长期因素表现在用户量的长期趋势,如一年来app的日活指标都是呈上升态,可估算5月到7月按既往趋势的DAU增长量(换算为量而非百分比),比如使用移动平均等预测手法计算;在剔除了趋势增长量的基础上,考虑短期因素,考虑在7月和5月间有无重大社会事件、商业事件,社会事件可以是某种舆论造成App的关注度提升,商业事件可考虑商业合作和商业活动(618),可以以各月的舆论热度作为对比的指标。
2. 按内外部变化拆分
日活的变化第一是产品本身某个改动点获得认可,可以通过abtest、用户研究等方式来检验;外部变化是市场环境,可以从市场趋势和市场竞争(交互作用)两方面来分析,市场趋势开始提倡或推动本类产品的增长(用户增长潜力),而从分割市场的角度解释市场竞争,一个固定容量的市场,一些产品倒下或增加,必将导致用户量的集中和分散,因此可考虑分析近几个月的行业舆情和竞争对手运营情况。
3. 按时空来拆分
可以将日活细拆为地区、城市的粒度,然后进行相应的对比,分析具体的日活增长点是某一个城市、还是某些城市还是所有城市,如果是某个或某几个城市,如可以分析这些城市的渗透率的变化,是否和其他日活变化不大的城市的渗透率相差较大,则可以归结于业务推广的功劳。若所有城市日活都在上升,则可以考虑该增长与野夫分析无关,考虑其他因素,如竞品退出、市场趋势、产品改进等有关
答案2:
step1:确定数据是否存在异常:基于历史数据,利用移动平均等预测方法,预测7月DAU数值,与2-3倍标准差做对比,判断实际数值是否处于正常范围。(也就是判断DAU上涨10%这是一个趋势,还是一个问题,是长期因素导致的,还是短期内社会事件等因素导致的。)
step2:拆分数据维度:人群拆分、渠道拆分、地理拆分、内外部拆分(拆分的核心是找出哪些影响因素导致了数值的异常,从各个维度判断是整体因素还是某类因素)。
① 人群拆分:新老用户维度、性别维度、年龄维度、职业维度等等。
② 渠道拆分:从新用户的的引入渠道、APP的跳转入/跳转出渠道、分享渠道、付费渠道等。
③ 地理拆分:从地区、城市、县级等粒度,拆分数据,分析DAU增长点是发生在某类城市、还是整体市场的变化。如果是在某个或某类城市的变化,则进一步分析其DAU增长原因。同时对比其渗透率与DAU变化较小的城市渗透率,判断这类城市的变化对整体DAU变化的影响程度。
④ 内外部拆分:内部主要指产品本身的改动点是否获得用户认可,包括产品模块的改动、产品运营策略的改动,可通过A/B Test、用户调研等方式进行检验。 外部可以从市场趋势、市场竞争、外部舆论、社会事件、节假日、PEST模型等因素考虑,可利用舆论热度、关键词搜索量、ADX等指标衡量趋势类因素,也可从分隔市场角度解释市场竞争因素(在固定容量的市场环境中,一些产品的倒下或爆红,将导致用户量的集中和分散)。
step3/4/5/6/7/8/9:具体维度考察技术、产品、运营,进一步细化DAU增长原因,分析问题,预测8月趋势变化,并为后续运营策略提优化建议。
18、开放性题目
挑选任意一款你使用过的社区类APP(不包括小红书),回答以下问题:
(1)描述使用这款APP的用户特征,并比较该APP用户特征与小红书用户特征的异同
(2)预估每一天有多少人在这款app上发布内容。请写出你需要的辅助数据,并简述预估的方法(3)你选择的这款APP近期拟邀请ABC三组艺人中的一组开展联动活动,活动的主要目的为提升DAU。
在活动形式完全一致的前提下,你将选择哪一组?
作答要求:1)简述分析思路,2)列出对应的数据指标
19、假设检验
经过一番研究,我们决定在新用户首次激活APP时增加一个短视频介绍页面来增加用户对产品的感知,并且打算通过AB Test(50%为控制组,50%的用户首次激活时会看到短视频介绍)来进行评估。假如你是此次实验的数据分析师,请问你会如何评估控制组和实验组的表现?请列出你认为重要的指标,给出分析过程和可能用到的统计方法。
目的应该是了解用户在观看短视频介绍页面后的行为,以此来判断短视频介绍页面是否有用。
-
指标:关注实验组短视频点击率,跳出率,观看时长,对比两个组的用户激活量,注册激活率,以及后续的留存情况。
-
方法:假设检验
20、预估类问题
小红书上海办公室楼下有一便利店,面积约为20平方米,主要提供零食及饮料。请预估该便利店每周的营业额是多少?
答案:
营业额可以拆分为客流量X平均消费额。面积20平,10平放置货物,10平顾客区,可以同时容纳5个顾客,假设消费时长人均10分钟,那么一个小时客流量30人,人均消费25元,一天10个小时营业时间,每周营业额302510*7=52500元。
21、开放性问题
如果APP有一个功能是用户的位置信息能够每隔1分钟上传一次数据库,那么怎么发挥它的作用?
参考:这题的回答方向应该是用这个用户的位置信息能做什么事。比如根据位置信息可以获取用户的行为轨迹,进而分析出用户的行为习惯,进行相应的实时推荐服务等。
小主陪你唠嗑:
首先呢,面试考点如下:
1、AB测试的流程、AB测试不显著怎么办?AB测试结果的评估(指标的选择)(重点!!)
2、假设检验(ABtest 就是运用了假设检验)(第一类错误、第二类错误、P值、显著性检验、显著性水平)
3、辛普森悖论(重点!!)
4、DAU下降了/上升了怎么分析?GMV下降了怎么分析?考点:异常分析(常考!!)
5、机器学习原理、应用场景、优缺点、评估指标(随机森林模型、聚类模型k-means的原理、bagging与boosting 的区别、xgboost与GBDT的区别、机器学习模型的评估指标(回归模型的评估指标、分类模型的评估指标))
6、其实有时候也会问概率题(泊松分布、二项分布、几何分布、均匀分布、超几何分布)(方差分析)
笔试注重:SQL 、概率题 、业务题(指标的选择、异常分析)
参考1:作者:可乐的数据分析之路 链接:https://www.jianshu.com/p/8b3e78cfb163
参考2:牛客网 登录—专业IT笔试面试备考平台_牛客网
这篇关于数分面试常考知识点的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!