学位专题

<
DOI:10.7666/d.y819933

应用于基因选择与癌症分类的微阵列数据分析

王红强
中国科学技术大学
引用
随着人类基因组计划的顺利完成,DNA微阵列技术越来越完善,癌症研究开始进入新的时代。DNA微阵列技术是一种物理学、微电子学与分子生物学综合交叉形成的高新技术。DNA微阵列技术具有划时代意义的特点是能同时监测成千上万条基因的表达,并能在同一阵列上对每一条基因进行定量表示;解决了特定物种细胞中,在某一特定的时间、特定的条件下基因表达谱测量问题。当前,DNA微阵列技术不仅是基因组信息学研究的主要支撑技术,而且为在基因组水平上进行癌症研究提供了最基本和必要的信息及依据,在生物学和医学研究中正受到越来越多的应用。癌症微阵列数据分析使得在大规模基因水平上深入研究癌症的发生、扩散和转移等病理特征成为可能,并被公认为癌症研究与治疗的强大工具。众所周知,癌症是一种复杂的遗传性疾病,往往是由先天的或外界的影响所造成的一些基因的突变、缺失等原因所引起。在临床表现上,癌症往往复杂多样并具有极强的隐蔽性和高复发率,从而导致较低的临床诊断与分类成功率。然而,癌症的成功治疗却往往在于可靠而精确的癌症类型诊断与预测。基于这些原因,癌症关键基因识别和癌症诊断与分类是癌症研究中的两项重要内容。为此,本文主要研究和探索了基于微阵列数据分析的癌症关键基因选择和癌症诊断与分类技术。 众所周知,基因调控是一种重要的基因活动机制。在遗传中心法则中,基因调控活动通过调节和控制遗传信息由DNA双链分子转录为mRNA分子以决定基因在生物体内的表达。在不同的外部环境(实验)条件下,基因调控将对生物体的微观基因环境产生不同的影响。简单假设在两种不同的实验条件下被调控的基因表达水平表现为三种调控状态,即上调控状态、下调控状态和非显著调控状态,我们使用概率统计方法对基因调控状态进行建模。在该模型的基础上,我们应用三种参数概率估计方法对基因调控概率(GRP)进行估计。基于这种基因调控信息,我们提出了基于基因调控概率的癌症微阵列数据分析系统。概率统计方法的使用使得我们的分析系统能够克服癌症微阵列数据天生高噪声和高变异的缺陷。同时,众所周知,癌症微阵列数据中隐藏着大量的有用信息,概率统计方法也帮助了我们的分析系统挖掘和提取这些潜在的有用信息,比如上述基因调控信息。该基于基因调控概率的癌症微阵列数据分析系统主要包括两种癌症微阵列数据分析技术,即基于GRP的基因选择方法利基于GRP的加权投票癌症诊断与分类方法。这两种分析技术分别实现了癌症研究中的两个重要目标:癌症关键基因识别利癌症诊断与分类。对于该分析系统,本文在多个公开的癌症微阵列数据上进行验证,并与现有的分析方法进行比较。实验结果表明我们的基于基因调控概率的癌症微阵列数据分析系统具有良好的分析性能。 目前,大多数癌症诊断与分类方法都是基于线性模型的分类技术。为了考察非线性癌症诊断与分类性能,本文探索了基于径向基函数神经网络的非线性癌症诊断与分类方法。众所周知,径向基函数网络作为一种非线性分析技术已经被成功的应用到了许多领域的非线性数据分析中,比如,信号处理,系统建模以及控制和故障诊断等领域。径向基函数网络被认为是通用的函数逼近子并具有快速的学习能力和紧致的拓扑结构等优点。为了提高径向基函数网络的分类性能,本文提出了一种改进模拟退火(MSA)径向基函数网络优化算法,并将优化的径向基函数网络用于非线性癌症诊断与分类。在白血病和结肠癌两个数据上的应用证明了该方法良好的癌症诊断与分类性能。 从模式识别和机器学习角度看,癌症关键基因识别问题属于特征选择问题。为此,本文集合两种特征选择方法(即filter方法和wrapper方法)的优点提出了一种基于支持向量和惩罚策略(SVPS)的癌症关键基因选择算法。众所周知,支持向量机是一种能够实现高维甚至无穷维数据的有效分析方法。该方法能够有效避免传统机器学习算法应用中的维数恶化问题,最适合处理像癌症微阵列数据这样的高维小样本问题。因此,在我们的算法中,支持向量机分类器被使用。在癌症微阵列数据上的实际应用表明了我们提出的基于支持向量和惩罚策略的基因选择算法能够有效地识别癌症关键基因。 本文的最后部分对研究工作进行总结并讨论了进一步的工作内容和方向。

微阵列;癌症;基因调控;全概率公式;最大似然估计;贝叶斯后验估计;径向基函数网络;模拟退火;支持向量机

中国科学技术大学

博士

模式识别与智能系统

黄德双

2005

中文

TP391.4;R730

110

2006-07-10(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅