2017.03.07回顾 GBDT前面树权重更大 python散点图

本文主要是介绍2017.03.07回顾 GBDT前面树权重更大 python散点图，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1、确定数据传输格式

2、看了下通过率方面的问题

3、下午开始研究GBDT相关问题，我最开始的疑问，是不是前面的树的权重大，对于我实际的数据集大多数样本点是这样的，少部分比较反常，但是我后来换了一个标准数据集，由于数据集太好了，损失函数直接就收敛到0了，所以每个点的预测值也是收敛到一个非常大非常小的值，在expit函数下，大概绝对值8，数值就很接近1或0了，~~然后前面收敛曲线基本上接近于一条直线，看不出速率的变化，~~我后来输出了delta值，确实前面几棵树的delta值要大一些，而且对某些样本点，delta值输出出来非常漂亮，每一颗树依次减小，最后开始收敛于某个值，之所以前面接近一条直线，主要是前面的树权重并没有大到肉眼可以很好地分辨，所以我误以为没有变化，看来不同的数据集，前面几棵树的变化程度大小自然也不一样，有可能前面1棵树当后面3棵树，也有可能一棵树当五棵树，~~所以我无法佐证我自己的猜测~~，所以我基本上初步可以得出结论，对于GBDT，前面的树就是比后面的树更重要，通过研究这一点，我还观察到其他的一些现象，我自己的数据集上，收敛速度很慢，20000颗树都很难收敛，收敛曲线倒是越来越平滑，在这个过程中，测试集上的AUC越来越低，显然出现了过拟合。有时候某个点的值会存在拐点。

4、画散点图

import matplotlib as plt
plt.scatter(x,y)
plt.xlabel('x')
plt.ylabel('y')
plt.show()

5、我后来研究了下把散点图拟合成一条曲线，没找到现成的python模块

这篇关于2017.03.07回顾 GBDT前面树权重更大 python散点图的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

2017.03.07回顾 GBDT前面树权重更大 python散点图

相关文章

python: 多模块(.py)中全局变量的导入

【Python编程】Linux创建虚拟环境并配置与notebook相连接

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

【学习笔记】陈强-机器学习-Python-Ch15 人工神经网络（1）sklearn

nudepy，一个有趣的 Python 库！

pip-tools：打造可重复、可控的 Python 开发环境，解决依赖关系，让代码更稳定

HTML提交表单给python

Python QT实现A-star寻路算法

Python：豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣，数据处理过程，数据分析，可视化，以及完整PPT报告】

Java基础回顾系列-第七天-高级编程之IO