期刊专题

10.14132/j.cnki.1673-5439.2022.01.011

基于混合采样和特征选择的改进随机森林算法研究

引用
随机森林算法是根据Bagging抽样和随机特征子集划分策略,由多棵决策树组成的集成算法.与其他分类算法相比,随机森林算法有更高的分类精度、更低的泛化误差以及训练速度快等特点,因此在数据挖掘领域得到了多方面的应用.然而随机森林算法在分类预测特征维度高且不平衡的数据时,分类性能受到了极大限制.为了更好地处理高维不平衡数据,文中提出了一种基于混合采样和特征选择的改进随机森林算法(Hybrid Samping&Feature Selection Random Forest,HF_RF).该算法首先从数据层面出发,通过SMOTE算法和随机欠采样相结合的方式对高维不平衡数据集进行预处理,同时引入聚类算法对SMOTE算法进行改进,提高对负类样本的处理性能;然后从算法层面出发,通过ReliefF算法对平衡后的高维数据赋予不同的权值,剔除不相关和冗余特征,对高维数据进行维度约简;最后采用加权投票原则进一步提高算法的分类性能.实验结果显示,改进后的算法与原算法相比,在处理高维不平衡数据方面的各评价指标更高,证明HF_RF算法对于高维不平衡数据的分类性能高于传统随机森林算法.

随机森林、混合采样、特征选择、高维不平衡数据、HF_RF算法

42

TP301(计算技术、计算机技术)

国家自然科学基金61702258

2022-04-25(万方平台首次上网日期,不代表论文的发表时间)

共9页

81-89

相关文献
评论
暂无封面信息
查看本期封面目录

南京邮电大学学报(自然科学版)

1673-5439

32-1772/TN

42

2022,42(1)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn

打开万方数据APP,体验更流畅