随机森林如何评估特征重要性【机器学习面试题详解】

今天爱分享给大家带来随机森林如何评估特征重要性【机器学习面试题详解】，希望能够帮助到大家。
解析：
衡量变量重要性的方法有两种，Decrease GINI 和 Decrease Accuracy：

1) Decrease GINI：

对于分类问题（将某个样本划分到某一类），也就是离散变量问题，CART使用Gini值作为评判标准。定义为Gini=1-∑(P(i)*P(i)),P(i)为当前节点上数据集中第i类样本的比例。例如：分为2类，当前节点上有100个样本，属于第一类的样本有70个，属于第二类的样本有30个，则Gini=1-0.7×07-0.3×03=0.42，可以看出，类别分布越平均，Gini值越大，类分布越不均匀，Gini值越小。在寻找最佳的分类特征和阈值时，评判标准为：argmax（Gini-GiniLeft-GiniRight），即寻找最佳的特征f和阈值th，使得当前节点的Gini值减去左子节点的Gini和右子节点的Gini值最大。

对于回归问题，相对更加简单，直接使用argmax(Var-VarLeft-VarRight)作为评判标准，即当前节点训练集的方差Var减去减去左子节点的方差VarLeft和右子节点的方差VarRight值最大。

2) Decrease Accuracy：

对于一棵树Tb(x)，我们用OOB样本可以得到测试误差1；然后随机改变OOB样本的第j列：保持其他列不变，对第j列进行随机的上下置换，得到误差2。至此，我们可以用误差1-误差2来刻画变量j的重要性。基本思想就是，如果一个变量j足够重要，那么改变它会极大的增加测试误差；反之，如果改变它测试误差没有增大，则说明该变量不是那么的重要。

常见问题

不显示资源下载框怎么办？

请更换谷歌，微软，火狐等浏览器

微云登录不了，或者重复提示登录？

请更换浏览器，最好使用微软，谷歌，火狐。国产浏览器不好用

原文链接：https://blog.itblood.com/2872.html，转载请注明出处。

随机森林如何评估特征重要性【机器学习面试题详解】

在线客服

升级VIP

夜间模式

返回顶部

站点公告

🎉 本站限时活动 🎉

随机森林如何评估特征重要性【机器学习面试题详解】

相关推荐:

猜你喜欢

在线客服

升级VIP

夜间模式

返回顶部

站点公告

🎉 本站限时活动 🎉