10.3969/j.issn.1000-386x.2020.03.045
基于随机森林特征重要性的K-匿名特征优选
大数据时代,数据的共享与挖掘存在隐私泄露的安全隐患.针对使用K-匿名隐藏实现隐私保护会大幅降低数据分类挖掘性能问题,提出一种基于随机森林特征重要性的K-匿名特征选择算法(RFKA)用于分类挖掘.使用随机森林特征重要性度量特征的分类性能;采用前向序列搜索策略每次选择不破坏K-匿名且分类性能最大的特征加入特征子集;使用特征子集对应的数据集构建模型进行分类实验.实验结果表明,该算法能更有效地平衡K-匿名和分类挖掘性能,且算法运行效率更高.
特征选择、K-匿名、随机森林、分类
37
TP309.2(计算技术、计算机技术)
四川省科技计划项目2019YFSY0032
2020-03-31(万方平台首次上网日期,不代表论文的发表时间)
共5页
266-270