学位专题

<
DOI:10.7666/d.D01097399

基于旋转森林的基因数据分类算法研究

刘亚卿
中国计量大学
引用
利用基因表达数据分类对癌症等恶性疾病进行识别,是数据挖掘技术在生物医学领域内的一个典型应用。决策树算法作为一种基础的机器学习算法,由于存在着理解性强,算法结构简单等优点被广泛运用,因此也产生了许多变体和集成方法。由于旋转森林算法在精度和集成度方面的优势而在近些年引起了研究者的关注。然而由于基因表达数据存在非线性和不平衡的特点,使得旋转森林算法的性能还需要进一步提高。当考虑到所有的样本存在不一样的分类代价时,除了追求分类精度外,对代价因素的处理也是一个必须面临的问题。针对以上问题,本文结合基因表达数据的特点,进行了以下方面的研究:  (1)提出了一种基于核主成分分析的旋转森林算法(KPCA-RoF)。利用核主成分分析实现数据从样本空间到特征空间的非线性变换以及数据的差异性变换。借鉴支持向量机的思想和旋转森林的集成方法,实现了基于核函数的旋转森林算法。选择高斯径向基核函数为映射函数,并且对其中的参数进行了分析和选择。实验证明基于核主成分分析的旋转森林在算法精度方面优于原始的算法,并且在较小的集成度时就可以达到良好的效果。  (2)结合几种常用的代价因素类型,提出了嵌入代价敏感因素的旋转森林学习算法(CS-RoF)。首先,通过改变EG2代价敏感决策树属性分裂的度量方法,嵌入误分类代价和测试代价;其次,在C4.5_cs代价敏感决策树的基础上嵌入拒识代价,形成了同时具有误分类代价和拒识代价的旋转森林算法。实验结论表明,代价敏感学习方法是解决数据不平衡性的良好途径;同时嵌入代价敏感因素可以降低平均分类代价并且保证了精度。

数据挖掘;基因表达数据;决策树;旋转森林算法;核函数;分类精度

中国计量大学

硕士

计算机应用技术

陆慧娟

2016

中文

TP311.13

55

2017-06-16(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅