202110专题

DataWhale-202110 树模型与集成学习(组队学习)-Task02

DataWhale-202110 树模型与集成学习-Task02 CART代码实现回归树训练代码代码运行结果分类树 CART代码实现回归树 import pandas as pdimport numpy as npdef MSE(y):return ((y - y.mean())**2).sum() / y.shape[0]class Node:def __init_

DataWhale-202110 树模型与集成学习（第一次）

DataWhale-202110 树模型与集成学习信息论的基础节点纯度不确定性函数 H ( P ) H(P) H(P) 决策树分裂信息增益分类树的节点分裂深度优先增长于最佳增益增长 CART树均方误差（熵）平均绝对误差（条件熵）决策树剪枝知识回顾第一题第二题第三题第四题处理连续值（转发）处理缺失值第五题第六题信息论的基础正如文档里面所说的一样，树具有一定的天然分支结

$DataWhale-树模型与集成学习-Task04-集成模式-202110$

DataWhale-树模型与集成学习-Task04-集成模式-202110

part B：集成模式：4. 两种并行集成的树模型一、练习题 1. 练习题1 解答：均方误差RMSE是预测值与真实值得误差平方根的均值。r2_score方法是将预测值和只使用均值的情况下相比，看能好多少。

$DataWhale-西瓜书+南瓜书-第4章决策树学习总结-Task03-202110$

DataWhale-西瓜书+南瓜书-第4章决策树学习总结-Task03-202110

4.1 决策树的基本流程 4.2 划分选择 4.2.1 信息增益 “信息熵”是度量样本集合纯度最常用的一种指标。信息增益定义为：一般而言，信息增益越大，则意味着使用某属性进行划分所获得的纯度提升越大。 4.2.2 增益率信息增益偏好

$DataWhale-树模型与集成学习-Task03-集成模式-202110$

DataWhale-树模型与集成学习-Task03-集成模式-202110

一、侧边栏练习题 1. 练习1 解答：由于是白噪声，所以最后一项推导如下：根据上面的推导，很容易看出第四个等号成立。 2. 练习2 解答： (1)

$DataWhale-西瓜书+南瓜书第3章线性模型学习总结-Task02-202110$

DataWhale-西瓜书+南瓜书第3章线性模型学习总结-Task02-202110

3.1 基本形式样本，其中是在第i个属性上的取值。线性模型试图学得一个通过属性得线性组合来进行预测得函数，即 3.2 线性回归 3.2.1 一元线性回归均方误差最小化，对w和b求导：

DataWhale-树模型与集成学习-Task02-Cart分类树代码实现-202110

助教老师实现了Cart回归树，在老师代码的基础上，实现了Cart分类树，代码如下： import numpy as npdef Gini(y):gn=1.0n=y.shape[0]for i in np.unique(y):gn=gn-(np.sum(y==i)/n)**2return gndef argmax(y):l=sorted([(np.sum(y==i),i) for i in

DataWhale-树模型与集成学习-Task01-决策树-202110

一、练习题 1. 练习01 解答： (1) (2) 结合可以得到 (3) 通过上面已经得到的公式，很容易证明 (4) H(X)对应A U B, H(Y)对应B U C, H(X|Y)对应A, H(Y|X)对应C, H(Y,X)对应AUBUC, G(Y,X)对应B 2. 练习02 【练习】假设当前我们需要处理一个分类问题，请问对输入特征进行归一化会

$西瓜书+南瓜书第1、2章学习总结-Task01-202110$

西瓜书+南瓜书第1、2章学习总结-Task01-202110

第一章绪论 1.2 基本术语一般的令表示包含m个示例的数据集，每个示例由d个属性描述，则每个示例是d维样本空间中的一个向量，其中是在第j个属性上的取值，d称为样本的“维数”。从数据中学得模型的过程称为“学习”或“训练”。若想要预测的数据是离散值，此类学习任务称为“分类”。若想要预测的数据是连续值，此类学习任务称为“回归”。根据训练数据是否拥有标记信息，学习