本文主要是介绍2017.02.28回顾 gbdt预测值更新 np数组取反,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
1、对决策引擎做了一些审批阈值的调整
2、继续对GBDT进行研究,研究了预测值如何更新的问题,我当初简单以为是用叶子节点的样本平均值表示预测值,昨天仔细跟了代码,才知道是用叶子节点样本的残差和除以一个以残差、y为输入的式子,sum(residual)/sum((y-residual)*(1-y+residual))这个就是所谓的牛顿迭代法求解,这个值的数量级整体趋势为什么会越来越小?(这个是我问题最初的出发点)我还不能证明。我后来又研究了一点,以1、0定义的二分类问题,损失函数求梯度,恰好就是y-expit(F),也就是代码中所谓的residual,这个残差就是梯度。所以建树是以friedman-mse的准则去建树,但是怎么计算预测值和loss有关,因为是loss求梯度,梯度在做个所谓的line search,衍生出的式子需要用牛顿迭代法求解。
3、了解了一个新的numpy array的用法
masked_terminal_regions = np.array([2,3,4,5])
sample_mask = np.array([True,True,True,True])
print masked_terminal_regions
print type(masked_terminal_regions)
masked_terminal_regions[~sample_mask] = -1
print masked_terminal_regions
~sample_mask是取反的意思,True变False,False变True,masked_terminal_regions和sample_mask结构相同,一一对应的,masked_terminal_regions
这篇关于2017.02.28回顾 gbdt预测值更新 np数组取反的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!