山东大学 计算机学院 机器学习与模式识别课程 2019-2020学年 第二学期试卷真题

本文主要是介绍山东大学 计算机学院 机器学习与模式识别课程 2019-2020学年 第二学期试卷真题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

机器学习与模式识别课程试卷

  • 前言
  • 一. 判断题 (24分)
  • 二.简答题 (46分)
  • 三、综合题(30分)

前言

人工智能班4学分课程试卷
区别于普通班的3学分课程试卷
主要用于学习交流,如要转载或者使用请标明出处
纯手打,如有帮助,麻烦点赞收藏🙏


一. 判断题 (24分)

1.(T/F) 假设我们有N个样本, x 1 x_1 x1, x 2 x_2 x2 x N x_N xN.每个样本 x i ∈ R d x_i \in R^d xiRd.则该样本集合的协方差矩阵S的维度是 N N N x N N N
2. (T/F) 通过Bootstrap采样获得的训练集可能存在重复的样本。
3. (T/F) 过滤式特征选择方法与模型(model)无关。
4. (T/F) C4.5和CART都是Leo Breman提出的。
5. (T/F) CART算法既可以用来解决分类也可以用来解决回归任务。
6. (T/F) 只要数据集不存在冲突。一棵决策树通常可以完美(100%)拟合训练数据。此时,这棵树的泛化误差也达到了最优值。
7. (T/F) 一棵决策树的不同节点处,不能存在重复子树。
8. (T/F) 集成学习主要分为并行算法和串行算法。其中随机森林属于串行算法,即每一颗树的学习受其他树学习的影响。
9. (T/F) 核函数是将高维空间中的数据映射到低维空间,从而实现对数据的非线性变换。
10. (T/F) 假设 x = [ x 1 , x 2 ] x=[x_1,x_2] x=[x1,x2],且 x 1 x_1 x1 x 2 x_2 x2是相互独立的随机变量,那么 x x x的协方差矩阵是对角阵。
11. (T/F) GBDT的基学习都是决策树,所以GBDT会在每一次迭代中(each iteration)增加一棵决策树。
12. (T/F) 如下图所示的KNN的决策边界,我们可以得出 k 1 < k 2 < k 3 k_1<k_2<k_3 k1<k2<k3
12题附图


二.简答题 (46分)

1.请你谈谈对过拟合和欠拟合的理解,以及如何缓解过拟合和欠拟合问题(8分)

2.Bagging是常见的集成学习算法。请写出Bagging算法的全称。(2分)

3.请利用最大似然估计(maximum likelihood estimation)得出逻辑回归的目标方程(取 y ∈ y \in {} y{-1,1})(8分)

4.假设矩阵A的SVD分解是A = U ∑ V T U \sum V^{T} UVT。简述 U U U, ∑ \sum , V V V三个矩阵的结构特性(结合特征分解)。为什么我们更多地使用SVD而不是特征分解来实现PCA。(8分)

5.请写出Huber loss的损失函数。并画出 δ = 1 \delta=1 δ=1 δ = 2 \delta=2 δ=2相对应的曲线。(4分)

6.请举例说明超参和模型参数的区别。并简述超参的调节方法(如何选择超参)。(6分)

7.在朴素贝叶斯理论中,我们可以利用样本的频率估计class prior和conditional probability。请根据最大似然估计和二项分布B(N,P)证明其合理性。必要时请给出相关文字解释。(6分)

8.请写出评价指标 F β F_\beta Fβ的公式。在解决实际任务时。如果相比查准率(precision)。我们更看重召回率(recall),那么我们应该令 β > 1 \beta>1 β>1还是 β < 1 \beta<1 β<1。(4分)


三、综合题(30分)

A.如下一个多分类(multi-class classification)任务的混淆矩阵。请根据该混淆矩阵计算出微查准率(micro-P),微查全率(micro-R),微 F 1 F_1 F1(micro- F 1 F_1 F1)
宏查准率(macro-P),宏查全率(macro-R),宏 F 1 F_1 F1(macro- F 1 F_1 F1) (12分)

A题对应图


B. 假设我们有5个一维的数据点: x 1 = 1 , x 2 = 2 , x 3 = 4 , x 4 = 5 , x 5 = 6 x_1=1,x_2=2,x_3=4,x_4=5,x_5=6 x1=1,x2=2,x3=4,x4=5,x5=6
他们的标签分别是 y 1 = 1 , y 2 = 1 , y 3 = − 1 , y 4 = − 1 , y 5 = 1 y_1=1,y_2=1,y_3=-1,y_4=-1,y_5=1 y1=1,y2=1,y3=1,y4=1,y5=1 (8分)

B题对应图
1.对上述五个数据点进行分类,请给出线性SVM的目标函数,并给出在其对偶空间中 α 1 \alpha_1 α1的目标函数

2.假设使用多项式核函数(polynomial kernel):K( x i x_i xi, x j x_j xj)= ( x i x j + 1 ) 2 (x_ix_j+1)^2 (xixj+1)2,惩罚因子C=100。给出线性SVM的目标函数,并给出在其对偶空间中 α 1 \alpha_1 α1的目标函数。


C.针对回归任务,假设数据集T={( x 1 x_1 x1, y 1 y_1 y1),( x 2 x_2 x2, y 2 y_2 y2),…,( x m x_m xm, y m y_m ym)}
x i x_i xi=[ x i ( 1 ) {x_i}^{(1)} xi(1), x i ( 2 ) {x_i}^{(2)} xi(2),…, x i ( n ) {x_i}^{(n)} xi(n)] T {}^T T ∈ R n {}\in R^n Rn
且存在线性模型:f(x)= θ 1 x ( 1 ) + θ 2 x ( 2 ) + . . . + θ n x ( n ) + θ 0 \theta_1x^{(1)}+\theta_2x^{(2)}+...+\theta_nx^{(n)}+\theta_0 θ1x(1)+θ2x(2)+...+θnx(n)+θ0 = θ T x \pmb{\theta^Tx} θTxθTxθTx,其中 θ \pmb{\theta} θθθ = [ θ 0 , θ 1 , θ 2 , . . . , θ n ] [\theta_0,\theta_1,\theta_2,...,\theta_n] [θ0,θ1,θ2,...,θn] T {}^T T (10分)

1.假设采用square loss,请写出具体的损失函数L

2.请根据SGD(Stochastic Gradient Descent)策略和BGD( Batch Gradient Descent)策略分别写出参数的优化过程与更新策略。

3.在损失函数中引入L1 norm。试给出新的损失函数L,并分析L1 norm的作用。

这篇关于山东大学 计算机学院 机器学习与模式识别课程 2019-2020学年 第二学期试卷真题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/374889

相关文章

如何测试计算机的内存是否存在问题? 判断电脑内存故障的多种方法

《如何测试计算机的内存是否存在问题?判断电脑内存故障的多种方法》内存是电脑中非常重要的组件之一,如果内存出现故障,可能会导致电脑出现各种问题,如蓝屏、死机、程序崩溃等,如何判断内存是否出现故障呢?下... 如果你的电脑是崩溃、冻结还是不稳定,那么它的内存可能有问题。要进行检查,你可以使用Windows 11

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

闲置电脑也能活出第二春?鲁大师AiNAS让你动动手指就能轻松部署

对于大多数人而言,在这个“数据爆炸”的时代或多或少都遇到过存储告急的情况,这使得“存储焦虑”不再是个别现象,而将会是随着软件的不断臃肿而越来越普遍的情况。从不少手机厂商都开始将存储上限提升至1TB可以见得,我们似乎正处在互联网信息飞速增长的阶段,对于存储的需求也将会不断扩大。对于苹果用户而言,这一问题愈发严峻,毕竟512GB和1TB版本的iPhone可不是人人都消费得起的,因此成熟的外置存储方案开

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

usaco 1.3 Mixing Milk (结构体排序 qsort) and hdu 2020(sort)

到了这题学会了结构体排序 于是回去修改了 1.2 milking cows 的算法~ 结构体排序核心: 1.结构体定义 struct Milk{int price;int milks;}milk[5000]; 2.自定义的比较函数,若返回值为正,qsort 函数判定a>b ;为负,a<b;为0,a==b; int milkcmp(const void *va,c

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学