10.3969/j.issn.1000-386x.2018.01.023
不平衡数据分类研究及其应用
针对传统机器学习算法对于不平衡数据少数类的分类精度较低的问题.分析了造成该问题的原因,进而提出一种欠抽样数据处理方法,提高少数类分类精度.该方法通过k-means算法对样本进行多次聚类,删除多数类的噪声以及多数类与少数类重叠度较高的样本.同时引入删除因子λ,降低多数类丢失特性的风险.通过对UCI数据集的实验分析,经该方法处理,分类算法对少数类的召回率和F值均有提高,证明该方法能有效提高少数类的分类精度.最后将方法应用于预测肺癌患者的术后预期寿命,患者一年期死亡率的召回率和F值分别提高42%和23%.
不平衡数据、k-means聚类、召回率
35
TP3(计算技术、计算机技术)
2018-05-07(万方平台首次上网日期,不代表论文的发表时间)
共6页
132-136,205