学位专题

<

基于统计学习理论的生物序列特征提取与识别

王猛
上海交通大学
引用
随着网络技术、数据库、传感器、基因组学和蛋白质组学的发展,数据供给能力和数据分析能力间的矛盾日益突出,迫切需要一种能够对数据进行深层次加工的自动化技术,数据挖掘技术应运而生。 统计学习理论(SLT)是机器学习领域的一个新的理论体系,它非常适用于解决有限样本条件下的机器学习问题。支持向量机(SVM)是基于统计学习理论发展而来的,它通过Mercer核函数在高维空间中进行分类计算。由于绝大多数生物序列分析问题与类型识别问题都具有小样本、随机性强、高噪声、特征提取困难等特点,所以统计学习理论特别适合解决该领域的问题。但是针对具体的数据类型和研究对象需要采用不同的学习策略,为此本文作了以下的工作:首先借助统计学习理论中的相关结论,结合实际的应用,分析和改进了现有的加权SVM算法以解决生物序列类型识别中的多类样本不平衡问题;然后将特定概率模型与字符串核相结合并应用到生物序列特定位点预测的问题;其次研究了流形上学习的相关理论,给出算法LLE的相关改进;分析了流形上的半监督学习算法Hessian-SVM并与Laplacian-SVM进行了比较;最后,使用元胞自动机方法,以可视化的方式分析生物序列的统计特性,并应用到病毒序列分析中。 在开始部分,本文概述了统计学习理论中与数据挖掘相关的部分结论。介绍了生物信息学的发展现状和特点,阐述了对它们进行研究的意义。 基于该方法的学习还是一门崭新的技术,无论是理论和实际应用中,都有很多问题亟待解决。 首先利用加权支撑向量机解决了进行生物序列类型预测时的不平衡样本问题。 生物序列是本文的主要研究对象,实践上经常需要对序列中某一特定区域或位点做出预测。针对这一数据类型和应用,本文将子位点耦合概率模型与字符串核相结合以预测序列的特定位点。 生物信息学中的一大类问题可以概括为:首先根据先验知识提取大量与预测任务相关的特征构成特征向量,然后在特征空间中进行预测。对于许多的实际问题,可以认为这些样本点(特征向量)在原始特征空间中构成了一个流形,进行预测的过程实质上就是在该流形上进行函数学习的过程。首先介绍了基于流形学习的一些基本的概念和结论,并针对其特例LLE进行了算法上的改进,并将算法SLLE成功地应用到膜蛋白序列特征提取的问题中。然后,利用标号样本和无标号数据(labeledandunlabeleddata)构成的流形分布特征,分析了流形上的半监督学习算法Hessian-SVM,以充分利用无标号数据提供的信息来提高精度,并与Laplacian-SVM进行了比较。 针对一维的RNA序列,用元胞自动机的不同规则将一维的RNA序列映射为二维图谱,分析图谱的特征可以发现SARS序列与其他冠状病毒序列生成的图像有明显的不同。分析产生这种不同的原因,发现在特定区域具有不同的组成特征是生成不同图像特征的根本原因。利用该组成特征可以用来区分SARS序列与非SARS序列,并可应用到实验室研究和SARS病症诊断上。 在生物信息的研究中,网络已日益成为学术研究和交流的平台,我们在网络上给出与本研究相关的服务和资料。 本文的创新体现在:1.给出LLE算法的详细推导过程,证明该算法在保留局部信息的意义下是最优的,给出其有监督形式SLLE和若干改进,并提出将非线性特征提取技术应用到膜蛋白类型预测的问题中; 2.将子位点耦合概率模型与字符串核相结合,以预测生物时间序列的特定位点;3.用元胞自动机的不同规则将一维生物序列映射为二维图谱,通过分析图谱的特征以发现生物序列之间的统计特性并分析关联影响; 4.利用加权SVM解决多类训练样本集严重不均衡造成的问题; 5.分析了流形上半监督学习算法Hessian-SVM,以利用未标号样本的信息提高预测精度。 6.给出对应于本研究的网络资源与服务; 7.在应用方面:使用SLLE以及加权SVM应用到膜蛋白类型预测中;将本文给出的字符串核应用于蛋白质剪切位点的预测;将本文给出的可视化序列分析方法应用到SARS序列分析中。

统计学习理论;生物序列分析;支持向量机;元胞自动机法;数据挖掘;生物信息学

上海交通大学

博士

模式识别与智能系统

杨杰

2005

中文

Q811.4;TP181

143

2006-09-18(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅