学位专题

目录>
<

基于参数优化的SVM分类器在肺癌早期诊断中的应用

尚丹
郑州大学
引用
本文首先介绍了肺癌诊断的历史及发展现状,在此基础上提出了将支持向量机(SVM)与肺癌早期诊断相结合的新思路,将机器学习应用到实际数据分类中。SVM是一种准确度高的分类器,具有很好的容错和归纳能力,能较好地解决小样本、非线性、高维等分类问题,具有很强的实用性。但在SVM的应用中,核函数、核参数和惩罚系数的选择对结果有很大的影响。本文首先引入常用安德森鸢尾花(fisheriris)数据集在多项式核函数(Polynomial)和径向基核函数(RBF)分类性能上进行直观形象的对比。再用常用的网格划分法寻找最佳参数c和g,之后为了提高分类效果,又分别用遗传算法(GA)和粒子群算法(PSO)对参数进行优化,将优化后的SVM算法用于肺癌数据集的分类中。在最后又与目前比较热门的其他分类方法:决策树C4.5算法和模糊神经网络算法进行比较,并将各种算法的分类性能在ROC空间显示。  方法:以胸部CT片中提取出的21项放射学特征和5个临床参数为基础,将117例病例样本随机分为训练集和测试集,将数据归一化后用主成分分析法(PCA)对数据进行降维处理,并训练SVM网络。通过比较并利用经验,选用RBF核函数,然后先用常用的网格划分法选择合适的惩罚参数c和核参数g,用测试集测试该网络区分肺癌和非肺癌的能力。之后再分别用GA和PSO对参数进行优化,重复之前的过程,每种方法的参数选择均在K-CV意义下进行。最后将各种方法的结果进行对比,其中也包括探索算法历程中尝试过的C4.5算法和模糊神经网络算法,发现各种算法的优缺点,找到其中最合适的。  结果:通过测试集输出结果对比,发现优化后的SVM网络虚警(假阳性)和漏检(假阴性)率较低,分类精度比优化前有所提高。PSO优化的SVM网络性能最好,44例测试样本中错误3例(第5例假阳性,第36例,第38例假阴性),ROC曲线下AUC值最大,GA优化次之,错误4例。基于三角型隶属度函数的模糊神经网络错误5例,基于高斯型隶属度函数的错误4例,C4.5算法在分类精度上最差。而且PSO优化计算速度较快,且对病例样本分组变化不敏感,有更好的泛化能力。因此,PSO优化的SVM网络更适用于肺癌诊断,值得进一步研究。

肺癌;早期诊断;支持向量机;遗传算法;粒子群算法;模糊神经网络;数据分类

郑州大学

硕士

微电子学与固体电子学

徐力平

2014

中文

R730.4;R319

69

2014-09-25(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅