学位专题

<

基于基因表达谱的小圆蓝细胞瘤亚型识别研究

朱云华
北京工业大学
引用
基于基因表达谱,在分子水平上对肿瘤进行分析和研究,是当前生物信息学研究的重要课题。本文针对肿瘤鉴别问题,以小圆蓝细胞瘤(SRBCT)为研究对象,从系统科学和信息科学的角度,采用人工智能和计算机技术,就小圆蓝细胞瘤的特征基因选取问题和亚型识别问题,基于基因表达数据进行了研究,取得如下研究成果: 第一,针对SRBCT分类信息的度量指标的研究本文提出了用于SRBCT特征基因选取的类加权Bhattacharyya距离指标。在修正信噪比指标的基础上,以体现贝叶斯分类错误率的Bhattacharyya距离衡量基因包含的分类信息。考虑到SRBCT具有四个亚型,以各类样本占总样本的比例为加权系数,对四个类别的Bhattacharyya距离加权求和,以此作为基因排序和选择的标准。用两种指标选取基因在不同分类模型上进行亚型识别实验,结果表明,用本文提出的指标选取的基因包含更多的分类信息。 第二,针对SRBCT亚型预测模型的研究本文建立了三种亚型预测模型,首次将多类支持向量机(MSVM)应用到SRBCT亚型识别问题上。分别建立了三层BP网络模型,基于BSVM的多模模型和MSVM模型。通过比较不同特征基因集合在三种模型上的分类准确率,确定了一个25个基因的特征集合,基于这个集合利用MSVM可取得100%的预测准确率。对这三种模型分类性能的对比研究的结果表明,MSVM优于其它两种方法,是解决SRBCT亚型识别问题的有效工具。 第三,针对SRBCT特征基因集合中冗余基因排除方法的研究本文提出了一种基于Pearson相关系数的“两两冗余”排除法。该方法考虑到某些基因之间存在着相关性,去掉SRBCT特征基因集合中分类信息指标较大基因的相关基因,得到15个特征基因。基于这15个特征基因本文构建了一个4聚类SOM聚类模型,对所有SRBCT样本进行聚类,聚类正确率达到100%。与文献[5]报道的结果比较,Khan采用主元分析法和人工神经网络建立的预测模型需要96个基因,而本文基于MSVM的预测模型只需15个特征基因就可取得100%的预测准确率,表明了本文方法的有效性。 本文的研究得到了国家自然科学基金的支持,已发表相关论文4篇,1篇发表在《计算机应用》上,2篇发表在《计算机工程与应用》上,1篇发表在《ProceedingsoftheThirdInternationalConferenceonMachineLearningandCybernetics,2004》(EI收录)。本文的研究有助于肿瘤与基因关系的理解,有助于肿瘤特征基因的选择,肿瘤的自动分类,以及肿瘤新亚型的发现。

基因表达谱;肿瘤分型;特征选取;小圆蓝细胞瘤;多类支持向量机

北京工业大学

硕士

模式识别与智能系统

阮晓钢

2005

中文

TP18;R730.4

56

2006-05-31(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅