自助法（bootstrapping）划分数据集

本文主要是介绍自助法（bootstrapping）划分数据集，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

自助法（bootstrapping）划分数据集

一、前戏

Bootstrap方法是非常有用的一种统计学上的估计方法，是斯坦福统计系的教授Bradley Efron（我曾有幸去教授办公室约谈了一次）在总结、归纳前人研究成果的基础上提出一种新的非参数统计方法。Bootstrap是一类非参数Monte Carlo方法,其实质是对观测信息进行再抽样，进而对总体的分布特性进行统计推断。
因为该方法充分利用了给定的观测信息，不需要模型其他的假设和增加新的观测，并且具有稳健性和效率高的特点。1980年代以来，随着计算机技术被引入到统计实践中来，此方法越来越受欢迎，在机器学习领域应用也很广泛。

首先，Bootstrap通过重抽样，可以避免了Cross-Validation造成的样本减少问题，其次，Bootstrap也可以用于创造数据的随机性。比如，我们所熟知的随机森林算法第一步就是从原始训练数据集中，应用bootstrap方法有放回地随机抽取k个新的自助样本集，并由此构建k棵分类回归树。

多数情况下采用留出法（hold-out），即从数据集中分层采样（stratified sampling）出约30%的数据作为测试集。分层采样的目的是要保持数据分布的一致性，避免划分过程引入额外的偏差。

在留出法中因为保留一部分样本用于测试了，导致训练的样本就少了。数据集的规模大点还好，当数据集比较少时，这样划分的方法就会浪费宝贵的数据资源。