面试时,遇到决策树相关的问题怎么办?看完下面的30道题,你应该就心里有底了...

本文主要是介绍面试时,遇到决策树相关的问题怎么办?看完下面的30道题,你应该就心里有底了...,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”


者:ANKIT GUPTA

编译:ronghuaiyang

前戏

决策树相关的算法是机器学习里非常常用,也非常有效的算法,梯度提升树更是Kaggle必备,同时也是面试的时候,面试官非常愿意问的问题,看完下面的30道题,相信你再遇到基于决策树的问题,心里就有底了!

介绍

决策树是机器学习和数据科学中最受欢迎的算法之一。它们是透明的、易于理解的、健壮的和广泛适用的。你可以看到算法在做什么,它执行了什么步骤来得到一个解。在需要解释决策时,这种特性在业务中尤其重要。

这个技能测试是专门为你测试决策树技术知识而设计的。超过750人报名参加了考试。如果你错过了这个技能测试,这里有一些问题和解决方案。

这里是参加测试的参与者的排行榜。

问题和答案

1) 下面关于bagging树的说法哪个是正确的?

  1. 在bagging树中,每棵树都是独立的

  2. Bagging是通过对弱学习器的结果进行综合来提升能力的方法

A) 1

B) 2

C) 1 和 2

D) 都不对

答案:C

两种说法都是正确的。在Bagging中,每棵树都是相互独立的,因为它们考虑了不同子集的特征和样本。


2) 下面关于提升树的说法哪个是正确的?

  1. 在提升树中,每个弱学习器是相互独立的

  2. 这是通过对弱学习器的结果进行综合来提升能力的方法

A) 1

B) 2

C) 1 和 2

D) 都不对

答案: B

在提升树中,每个弱学习器不是相互独立的,因为每棵树都纠正了前一棵树的结果。Bagging和Boosting都可以被认为是提高基础学习器能力的方法。


3) 下面关于随机森林和梯度提升集成方法的说法哪个是正确的?

  1. 这两种方法都可以用来做分类

  2. 随机森林用来做分类,梯度提升用来做回归

  3. 随机森林用来做回归,梯度提升用来做分类

  4. 两种方法都可以用来做回归

A) 1

B) 2

C) 3

D) 4

E) 1 和4

答案: E

两种方法既可以做分类又可以做回归。


4) 在随机森林里,你生成了几百颗树(T1, T2 …..Tn),然后对这些树的结果进行综合,下面关于随机森林中每颗树的说法正确的是?

  1. 每棵树是通过数据集的子集和特征的子集构建的

  2. 每棵树是通过所有的特征构建的

  3. 每棵树是通过所有数据的子集构建的

  4. 每棵树是通过所有的数据构建的

A) 1 和 3

B) 1 和 4

C) 2 和 3

D) 2 和 4

答案: A

随机森林是基于bagging的方法,是通过对数据和特征的采集来构建每一棵树。

5) 下面关于梯度提升中"max_depth"的超参数的说法正确的是?

  1. 对于相同的验证准确率,越低越好

  2. 对于相同的验证准确率,越高越好

  3. max_depth增加可能会导致过拟合

  4. max_depth增加可能会导致欠拟合

A) 1 和 3

B) 1 和 4

C) 2 和 3

D) 2 和 4

答案: A

增加树的深度可能会导致过拟合,对于两个深度值,如果验证准确率一样的话,我们偏向于选择小的深度的模型。

6) 下面的算法中哪个没有使用学习率作为超参数?

  1. 梯度提升

  2. Extra Trees

  3. AdaBoost

  4. 随机森林

A) 1 和 3

B) 1 和 4

C) 2 和 3

D) 2 和 4

Solution: D

随机森林和Extra Trees的超参数中没有学习率。


7) 下面的算法中,基于performance哪个你不会在最后的模型构建中使用?

假设你有了下面的图,显示了两个不同分类算法的ROC曲线,随机森林(红色)和逻辑回归(蓝色)。

640?wx_fmt=jpeg

A) 随机森林

B) 逻辑回归

C) 两个都可以

D) 两个都不行

答案: A

随机森林的AUC大的多,所以选择随机森林。

8) 关于训练和测试误差哪个说法是正确的?

假设你想对数据集D使用AdaBoost算法,数据集D有T个观测值。一半数据用于训练,一半数据用于测试。现在你想增加数据点的数量来训练T1,T2…Tn其中T1 < T2 ....Tn-1 < Tn。

A) 数据点变多,训练误差和测试误差的差别变大

B) 数据点变多,训练误差和测试误差的差别变小

C) 数据点变多,训练误差和测试误差的差别不变

D) 都不对

答案: B

我们有了更多的数据,训练误差会变大,测试误差会变小,两者都会向真实的误差收敛。

9) 在随机森林或梯度提升算法中,特征可以是任何类型。例如,它可以是连续特征,也可以是类别特征。当你考虑这些类型的特性时,下列哪个选项是正确的?

A) 只有随机森林在处理实数值特征的时候会进行离散化

B) 只有梯度提升算法在处理实数值特征的时候会进行离散化

C)  两个算法都会在处理实数值特征的时候会进行离散化

答案: C

两者都可以处理实数值特征。

10) 下面哪个算法不是集成学习算法的例子?

A) 随机森林

B) Adaboost

C) Extra Trees

D) 梯度提升

E) 决策树

答案: E

决策树并没有综合多颗树的结果,所以不是集成算法。

11) 假设你要用基于bagging的算法,比如随机森林来构建模型,下面说法正确的是?

  1. 树的数量越多越好

  2. 使用随机森林具备可解释性

A) 1

B) 2

C) 1 和 2

D) 都不对

答案: A

随机森林组合弱学习器的结果,如果可能的话,树的数量越多越好,随机森林是一个黑盒子模型,不具备可解释性。

12-15题

为了回答下面几个问题,我们来看看下面这个图。在图中,X1和X2是两个特征,数据点用点表示(-1为负类,+1为正类)。首先根据特征X1对数据进行分割(假设分割点为x11),如图中用垂线表示。每一个小于x11的值将被预测为正类,而大于x11的值将被预测为负类。

640?wx_fmt=jpeg

12) 上面的图中,有多少数据点被错误分类?

A) 1

B) 2

C) 3

D) 4

答案: A

没什么可说的。

13) 在x1特征上哪个分割点可以对数据正确分类?

A) 比x11大

B) 比x11小

C) 等于x11

D)上面都不对

答案: D

在x1维度上,没有哪个点可以100%的正确分类。

14) 如果使用x2特征进行分割,可以在x2特征上完美分类正负样本吗?

A) 可以

B) 不行

答案: B

也没什么可说的。

15) 现在在两个特征上都使用一个点(一个x1上,1个x2上),可以把所有的点都分正确吗?

A) 可以

B) 不行

答案: B

16-17题

假如你正在处理一个包含3个输入特性的二分类问题。你选择对这些数据使用bagging算法(X),你选择max_features = 2和n_estimators =3。现在,假设每个估计器都有70%的准确率。

注:算法X是基于最大投票对单个估计量的结果进行聚合

16) 你可以得到的最大准确率是多少?

A) 70%

B) 80%

C) 90%

D) 100%

答案: D

参考下面的表,由M1,M2得到M3

Actual predictionsM1M2M3Output
11011
11011
11011
10111
10111
10111
11111
11101
11101
11101


17)你能得到的最小准确率?

A) 大于70%

B) 大于等于%

C) 可以小于70%

D) 都不对

答案: C

参考下面的表,由M1,M2得到M3

Actual predictionsM1M2M3Output
11000
11111
11000
10100
10111
10010
11111
11111
11111
11111

18) 假设你构建一个随机森林模型,在一个特征节点上进行分割,具有最高的信息增益。下面的图中,哪个是具有最高的信息增益的特征?

640?wx_fmt=jpeg

A) Outlook

B) Humidity

C) Windy

D) Temperature

答案: A

信息增益随着子集的平均纯度的增加而增加,所以说A是正确答案。

19) 关于梯度提升树,下面说法正确的是?

  1. 在每一个步骤,使用一个新的回归树来补偿已有模型的缺点

  2. 我们可以使用梯度下降的方法来最小化损失函数

A) 1

B) 2

C) 1 和 2

D) 都不对

答案: C


20) 对还是错: bagging适用于高的方差低偏差的模型?

A) 对

B) 错

答案: A

bagging适用于高的方差低偏差的模型,或者说复杂的模型


21) 当你选择观测样本的比例来构建基本的基于树的学习器的时候,下面哪个是正确?

A) 减小样本的比例来构建基础学习器可以降低方差

B) 减小样本的比例来构建基础学习器可以提高方差

C) 增大样本的比例来构建基础学习器可以降低方差

D) 增大样本的比例来构建基础学习器可以提高方差

答案: A

22-23题

假如,你构建一个梯度提升模型,数据集有几百万个数据,1000多个特征,构建模型之前,考虑到时间,你需要考虑一下不同的参数设置。

22) 考虑超参数 “number of trees” ,构建梯度提升模型时花费的时间的排序是?

注: 其他的超参数是一样的

  1. 树的数量 = 100

  2. 树的数量 = 500

  3. 树的数量 = 1000

A) 1~2~3

B) 1<2<3

C) 1>2>3

D) 都不对

答案: B

1000棵树花的时间最多,100棵树最少。

23) 现在,考虑学习率超参数,构建梯度提升模型,每个超参数花的时间排序是?

注: 其他的超参数是一样的

  1. 学习率 = 1

  2. 学习率 = 2

  3. 学习率 = 3

A) 1~2~3

B) 1<2<3

C) 1>2>3

D) 都不对

答案: A

学习率并不影响时间,所以所有的学习率花的时间是一样的。

24) 在梯度提升中,利用学习率来获得最优输出是非常重要的,在选择学习速率时,下列哪个选项是正确的

A) 学习率越高越好

B) 学习率越低越好

C) 学习率应该低一点但是不能太低

D) 学习率应该高一点但是不能太高

答案: C

学习率应该低一点,但不应该很低,否则算法需要很长时间才能完成训练,因为你需要增加树的数量。


25) [对还是错] 交叉验证可用于选择提升中的迭代次数;这个过程可以帮助减少过拟合

A) 对

B) 错

答案: A

26) 当你使用提升算法时,你会考虑弱学习器,以下哪项是使用弱学习器的主要原因?

  1. 防止过拟合

  2. 防止欠拟合

A) 1

B) 2

C) 1 和 2

D) 都不对

答案: A

为了防止过拟合,在提升算法的每个步骤中,模型的复杂度都在提升,从弱学习器开始意味着最终的分类器过拟合的可能性会小。

27) 在回归树上使用bagging方法,下面的说法正确的是?

  1. 我们在N个又放回采用的样本上构建N个回归器

  2. 我们使用N个回归树

  3. 每一棵树具有高的方差低的偏差

A) 1 和 2

B) 2 和3

C) 1 和 3

D) 1,2 和 3

答案: D

28) 如何为基于树的模型选择最佳超参数?

A) 在训练数据上度量perfermance

B) 在验证数据上度量perfermance

C) 两个都对

D) 两个都不对

答案: B

我们使用验证集的结果来进行对比。

29) 在以下哪种情况下,增益比比信息增益更可取?

A) 当类别变量具有非常大的类别数量的时候

B) 当类别变量具有非常小的类别数量的时候

C) 和类别数量无关

答案: A

30) 假设已经给出了以下场景下梯度提升的训练和验证错误,在这种情况下,您会选择以下哪个超参数?

ScenarioDepthTraining ErrorValidation Error
12100110
2490105
3650100
4845105
51030150

A) 1

B) 2

C) 3

D) 4

答案: B

场景2和场景4具有相同的验证精度,但是我们将选择2,因为深度越低越好。

总得分的分布

下面是所有参与者的得分的分布:

640?wx_fmt=png

您可以这里访问分数。350多人参加了技能测试,最高得分为28分。

640?wx_fmt=png

往期精彩回顾


1、最全的AI速查表|神经网络,机器学习,深度学习,大数据

2、资源|10个机器学习和深度学习的必读免费课程

3、论文看吐了没有?做研究的同学瞧一瞧看一看啦,教你读论文:为什么读以及如何读

4、人人都能看得懂的深度学习介绍!全篇没有一个数学符号!

5、想找个数据科学家的工作吗?别再随大流了!


本文可以任意转载,转载时请注明作者及原文地址

640?wx_fmt=jpeg

请长按或扫描二维码关注本公众号



这篇关于面试时,遇到决策树相关的问题怎么办?看完下面的30道题,你应该就心里有底了...的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1080884

相关文章

MybatisGenerator文件生成不出对应文件的问题

《MybatisGenerator文件生成不出对应文件的问题》本文介绍了使用MybatisGenerator生成文件时遇到的问题及解决方法,主要步骤包括检查目标表是否存在、是否能连接到数据库、配置生成... 目录MyBATisGenerator 文件生成不出对应文件先在项目结构里引入“targetProje

Linux使用fdisk进行磁盘的相关操作

《Linux使用fdisk进行磁盘的相关操作》fdisk命令是Linux中用于管理磁盘分区的强大文本实用程序,这篇文章主要为大家详细介绍了如何使用fdisk进行磁盘的相关操作,需要的可以了解下... 目录简介基本语法示例用法列出所有分区查看指定磁盘的区分管理指定的磁盘进入交互式模式创建一个新的分区删除一个存

C#使用HttpClient进行Post请求出现超时问题的解决及优化

《C#使用HttpClient进行Post请求出现超时问题的解决及优化》最近我的控制台程序发现有时候总是出现请求超时等问题,通常好几分钟最多只有3-4个请求,在使用apipost发现并发10个5分钟也... 目录优化结论单例HttpClient连接池耗尽和并发并发异步最终优化后优化结论我直接上优化结论吧,

Java内存泄漏问题的排查、优化与最佳实践

《Java内存泄漏问题的排查、优化与最佳实践》在Java开发中,内存泄漏是一个常见且令人头疼的问题,内存泄漏指的是程序在运行过程中,已经不再使用的对象没有被及时释放,从而导致内存占用不断增加,最终... 目录引言1. 什么是内存泄漏?常见的内存泄漏情况2. 如何排查 Java 中的内存泄漏?2.1 使用 J

关于Maven生命周期相关命令演示

《关于Maven生命周期相关命令演示》Maven的生命周期分为Clean、Default和Site三个主要阶段,每个阶段包含多个关键步骤,如清理、编译、测试、打包等,通过执行相应的Maven命令,可以... 目录1. Maven 生命周期概述1.1 Clean Lifecycle1.2 Default Li

numpy求解线性代数相关问题

《numpy求解线性代数相关问题》本文主要介绍了numpy求解线性代数相关问题,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 在numpy中有numpy.array类型和numpy.mat类型,前者是数组类型,后者是矩阵类型。数组

解决systemctl reload nginx重启Nginx服务报错:Job for nginx.service invalid问题

《解决systemctlreloadnginx重启Nginx服务报错:Jobfornginx.serviceinvalid问题》文章描述了通过`systemctlstatusnginx.se... 目录systemctl reload nginx重启Nginx服务报错:Job for nginx.javas

Redis缓存问题与缓存更新机制详解

《Redis缓存问题与缓存更新机制详解》本文主要介绍了缓存问题及其解决方案,包括缓存穿透、缓存击穿、缓存雪崩等问题的成因以及相应的预防和解决方法,同时,还详细探讨了缓存更新机制,包括不同情况下的缓存更... 目录一、缓存问题1.1 缓存穿透1.1.1 问题来源1.1.2 解决方案1.2 缓存击穿1.2.1

mysql-8.0.30压缩包版安装和配置MySQL环境过程

《mysql-8.0.30压缩包版安装和配置MySQL环境过程》该文章介绍了如何在Windows系统中下载、安装和配置MySQL数据库,包括下载地址、解压文件、创建和配置my.ini文件、设置环境变量... 目录压缩包安装配置下载配置环境变量下载和初始化总结压缩包安装配置下载下载地址:https://d

vue解决子组件样式覆盖问题scoped deep

《vue解决子组件样式覆盖问题scopeddeep》文章主要介绍了在Vue项目中处理全局样式和局部样式的方法,包括使用scoped属性和深度选择器(/deep/)来覆盖子组件的样式,作者建议所有组件... 目录前言scoped分析deep分析使用总结所有组件必须加scoped父组件覆盖子组件使用deep前言