随机森林怎么根据Permutation Importance选择特征

liaoyaonline 2020-08-20 03:42:28
目的是选择出有效的属性集,但在使用Permutation Importance进行排序的时候不理解,比方说

主要疑问,就是是先根据决策树OOB计算Permutation Importance,对特征进行排序。。。
还是使用随机森林对每个样本其做为OOB的时的树进行计算Permutation Importance,然后再统计。
但这个也有一个问题,就是随机森林的会从属性集中随机选取有限个属性生成决策树,那么假如某个样本属于某个决策树的OOB数据,但同时也有可能该决策树根本就没有某个属性,那么检测该属性的Permutation Importance检测不了。
求教大佬们了
...全文
564 回复 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
植物病害是全球农业生产中造成重大损失的重要因素。通过早期预测病害爆发,可以帮助农民及时采取预防措施,减少经济损失。本数据集是一个合成生成的植物病害预测数据集,模拟了可能引发植物真菌感染的环境条件,适用于二分类建模、特征分析和不平衡分类等任务。 该数据集共包含 10,000 条样本记录,每条记录代表一个农场地点的环境测量值,包括: 温度(摄氏度) 湿度(百分比) 降雨量(毫米) 土壤 pH 值 是否发生病害(二分类标签:0 表示健康,1 表示患病) 这些变量之间的关系复杂且非线性,尽可能贴近真实农业生态系统,可用于训练和评估各种机器学习模型。 数据字段说明(Columns) 字段名 描述 示例值 temperature 环境温度(摄氏度) 25.6, 30.4, 22.1 humidity 空气湿度(%) 78.5, 92.3, 65.0 rainfall 降雨量(毫米) 10.2, 5.0, 100.0 soil_pH 土壤酸碱度(pH 值) 6.4, 5.8, 7.2 disease_present 是否出现病害(目标变量) 0(健康),1(患病) 主要应用场景 二分类建模 使用逻辑回归、随机森林、XGBoost、LightGBM 等算法预测是否会发生病害 对比不同模型在农业场景下的表现 特征重要性分析 分析哪些环境因素对病害的发生影响最大 可使用 SHAP、Permutation Importance、LIME 等工具进行解释

3,882

社区成员

发帖
与我相关
我的任务
社区描述
C/C++ 其它技术问题
社区管理员
  • 其它技术问题社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧