OOB是什么?随机森林中OOB是如何计算的 优缺点是什么【面试题详解】

今天爱分享给大家带来OOB是什么?随机森林中OOB是如何计算的 优缺点是什么【面试题详解】,希望能够帮助到大家。
bagging方法中Bootstrap每次约有1/3的样本不会出现在Bootstrap所采集的样本集合中,当然也就没有参加决策树的建立,把这1/3的数据称为袋外数据oob(out of bag),它可以用于取代测试集误差估计方法。

袋外数据(oob)误差的计算方法如下:
对于已经生成的随机森林,用袋外数据测试其性能,假设袋外数据总数为O,用这O个袋外数据作为输入,带进之前已经生成的随机森林分类器,分类器会给出O个数据相应的分类,因为这O条数据的类型是已知的,则用正确的分类与随机森林分类器的结果进行比较,统计随机森林分类器分类错误的数目,设为X,则袋外数据误差大小=X/O;

优点:这已经经过证明是无偏估计的,所以在随机森林算法中不需要再进行交叉验证或者单独的测试集来获取测试集误差的无偏估计。

缺点:当数据量较小时,自助法产生的数据集改变了初始数据集的分布,这会引入估计偏差。

人已赞赏
Python

xgboost怎么给特征评分【面试题详解】

2020-12-25 15:20:58

Python

机器学习特征工程操作是什么?意义什么【面试题详解】

2020-12-25 15:24:30

'); })();