202110专题

DataWhale-202110 树模型与集成学习(组队学习)-Task02

DataWhale-202110 树模型与集成学习-Task02 CART代码实现回归树训练代码代码运行结果 分类树 CART代码实现 回归树 import pandas as pdimport numpy as npdef MSE(y):return ((y - y.mean())**2).sum() / y.shape[0]class Node:def __init_

DataWhale-202110 树模型与集成学习(第一次)

DataWhale-202110 树模型与集成学习 信息论的基础节点纯度不确定性函数 H ( P ) H(P) H(P) 决策树分裂信息增益 分类树的节点分裂深度优先增长于最佳增益增长 CART树均方误差(熵)平均绝对误差(条件熵) 决策树剪枝知识回顾第一题第二题第三题第四题处理连续值(转发)处理缺失值 第五题第六题 信息论的基础 正如文档里面所说的一样,树具有一定的天然分支结

DataWhale-树模型与集成学习-Task04-集成模式-202110

part B:集成模式:4. 两种并行集成的树模型 一、练习题 1. 练习题1  解答:均方误差RMSE是预测值与真实值得误差平方根的均值。r2_score方法是将预测值和只使用均值的情况下相比,看能好多少。

DataWhale-西瓜书+南瓜书-第4章决策树学习总结-Task03-202110

4.1 决策树的基本流程  4.2  划分选择 4.2.1 信息增益 “信息熵”是度量样本集合纯度最常用的一种指标。                                       信息增益定义为:                         一般而言,信息增益越大,则意味着使用某属性进行划分所获得的纯度提升越大。 4.2.2 增益率    信息增益偏好

DataWhale-树模型与集成学习-Task03-集成模式-202110

一、侧边栏练习题 1. 练习1    解答:                由于是白噪声,所以                                                               最后一项推导如下:                        根据上面的推导,很容易看出第四个等号成立。 2. 练习2  解答: (1)

DataWhale-西瓜书+南瓜书第3章线性模型学习总结-Task02-202110

3.1 基本形式 样本,其中是在第i个属性上的取值。线性模型试图学得一个通过属性得线性组合来进行预测得函数,即                                                    3.2 线性回归  3.2.1 一元线性回归 均方误差最小化,对w和b求导:

DataWhale-树模型与集成学习-Task02-Cart分类树代码实现-202110

助教老师实现了Cart回归树,在老师代码的基础上,实现了Cart分类树,代码如下: import numpy as npdef Gini(y):gn=1.0n=y.shape[0]for i in np.unique(y):gn=gn-(np.sum(y==i)/n)**2return gndef argmax(y):l=sorted([(np.sum(y==i),i) for i in

DataWhale-树模型与集成学习-Task01-决策树-202110

一、练习题 1. 练习01 解答: (1) (2)   结合 可以得到 (3) 通过上面已经得到的公式,很容易证明 (4) H(X)对应A U B, H(Y)对应B U C,  H(X|Y)对应A, H(Y|X)对应C, H(Y,X)对应AUBUC, G(Y,X)对应B  2. 练习02   【练习】假设当前我们需要处理一个分类问题,请问对输入特征进行归一化会

西瓜书+南瓜书第1、2章学习总结-Task01-202110

第一章 绪论 1.2 基本术语     一般的令表示包含m个示例的数据集,每个示例由d个属性描述,则每个示例是d维样本空间中的一个向量,其中是在第j个属性上的取值,d称为样本的“维数”。     从数据中学得模型的过程称为“学习”或“训练”。若想要预测的数据是离散值,此类学习任务称为“分类”。若想要预测的数据是连续值,此类学习任务称为“回归”。      根据训练数据是否拥有标记信息,学习