【阅读笔记】Multi-Layered Gradient Boosting Decision Trees

本文主要是介绍【阅读笔记】Multi-Layered Gradient Boosting Decision Trees，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

作者：
Ji Feng, Yang Yu, Zhi-Hua Zhou
National Key Laboratory for Novel Software Technology
Nanjing University, Nanjing 210023, China
Email: {fengj/yuy/zhouzh}@lamda.nju.edu.cn
发布时间：31 May 2018

前段时间看的这篇文章，作者是周志华，他的著作《机器学习》大名鼎鼎。但是这篇文章的风评似乎不是特别好，我觉得一方面是大家的盛名之下，其实难副的心态，一方面这篇文章确实有点像toy model，实用性还需要加强。但是总体感觉还是挺有想法的。

Abstract

Deep Learning功能强大之处在于他的deep（层数比较深），可以提取出更抽象的特征。
但是对于一般的Machine Learning（例如GBDT）每层的模型是不可微的，不能像神经网络那样反向传播优化参数，导致学习能力受限。
本文提出了一种方法，不需要可微和反向传播，就可以根据结果优化每层的模型。

KEY IDEA

假设学习器是一个M层前馈结构，每一层的输出是 $o_i, i=1,2,...,M$ ，模型的输入记为 $o_0$ 。
每一层的模型记为 $F_i$ ，loss记为 $L$ 。如果 $F_i$ 是可微的，L可以通过反向传播传回去，然后优化每层的分类器。
当 $F_i$ 不可微时，本文提出用pseudo-inverse $G_i$ 来传播 $L$ 。
$G_i$ 是使得 Gi(F