学位专题

<
DOI:10.7666/d.Y1495674

机器学习方法预测蛋白质相互作用应用Logistic回归提高质谱多肽鉴定的准确度

邵晨
清华大学医学部;北京协和医学院;中国医学科学院
引用
蛋白质组学成为后基因组时代的热点学科。生物质谱、蛋白质芯片等高通量实验技术的发明极大地推动了蛋白质组学的发展。本文致力于通过生物信息学的方法,进一步提高当前高通量实验技术的效率和精确程度,以更低的实验代价,获得更加全面、准确的实验结果。 蛋白质—蛋白质相互作用在生命过程中起着重要的作用。通过多年的生物学实验,已经积累了大量的蛋白质相互作用数据,但未知的相互作用还有很多。目前筛选蛋白质相互作用的实验方法既耗费人力物力,而且由于丰度抑制的原因而很难鉴定出低丰度的蛋白之间的相互作用。一条更简单的途径是通过生物信息学的方法首先用计算机筛选蛋白质数据库,预测出潜在的蛋白质相互作用,然后再用生物学实验进行验证。这个策略具有比实验手段高得多的通量,而且可以解决丰度抑制的问题。 在蛋白质—蛋白质相互作用的类型中,有相当一部分相互作用是通过蛋白质的某个结构域与其配体蛋白上的一段短肽相结合来实现的,这种结构域被称为多肽识别元件(Peptide recognition module,PRM)。本文的第一章通过研究PRM结合多肽的结合特性,预测了蛋白质—蛋白质之间的相互作用。 以PDZ结构域为例,结合了基于结构的和基于序列的预测方法,本文建立了一个整合的预测系统来预测结构域和配体间的相互作用。在这个系统中,提取了结构域和配体三维结构上相互接触的氨基酸残基来代替序列全长,利用三种新型的氨基酸编码方式,用支持向量机和人工神经网络两种机器学习算法分别建立了三个子预测系统,最后将它们的预测结果综合在一起。 用交叉验证的方法来评价,预测系统的特异性为0.99,灵敏度为0.60。然而,由于已知的一个结构域的配体通常只有几十或几百个,远远小于蛋白质数据库的上万个蛋白的规模,仅仅建立在少量数据上的交叉验证的评价结果不一定能保证预测方法在筛选数据库时的成功。为了验证这一点,本文从Swissprot人类数据库中为3个PDZ结构域筛选了配体蛋白序列,预测结果的相当一部分与高通量的体外实验(peptide SPOT array)的结果重合,证明了预测系统的泛化能力。 串联质谱技术(MS/MS)是常用的蛋白质组学研究方法。在这个方法中,蛋白质混合物首先被酶切为多肽混合物,在质谱仪中被离子化,再经过碎裂后产生大量的二级质谱图。数据库检索是常见的质谱数据处理方法。其主要思想是将实验谱图与数据库中的酶切多肽的理论谱图进行比对,通过特定的打分算法,找到匹配最佳的多肽。由于样品和实验原理的复杂性,质谱图带有很高的噪声,为后续的数据处理工作带来了很大的难度。目前已有多种算法用来优化多肽的鉴定,但阳性和阴性的多肽鉴定仍不能够被完美地区分。为了保证鉴定结果的可信,就不得采用更严格的参数限制来去除假阳性鉴定,与此同时不可避免地产生了大量的假阴性鉴定,降低了蛋白质组学研究的效率。 本文的第二章建立了一个新的参数Oscore,对实验谱图与多肽的匹配进行打分。Oscore基于logistic回归模型建立,以18个标准蛋白数据集作为学习集,可以直接地计算出谱图与多肽的匹配为正确匹配的概率。回归模型的自变量包括:SEQUEST软件输出的参数Xcorr,△Cn,Sp(preliminary score)和实验室自制的AMASS(Sun et al.Mol Cell Proteomics.2004Dec;3(12):1194—9)软件的输出参数Rscore,Cont,Matchpct,以及多肽电荷数和漏切位点数(numberofmissedinternalcleavagesites)。AMASS的三个参数考虑了子离子强度和b/y系列离子的连续性的信息,有助于区分阳性和阴性的多肽鉴定。由于上述的8个参数之间具有复杂的相关关系,将它们组合成Oscore可以提高鉴定的准确度。 与常用的软件PeptideProphet相比,Oscore同时在多个数据集上表现出更好的特异性(低假阳性率)和灵敏度(低假阴性率)。这些数据集包括标准蛋白混合物数据集和3个蛋白质组水平的数据集,涵盖了不同的样品复杂度、数据库规模和分离方式,在一定程度上表明了Oscore的泛化能力。通过一个同样基于logistic回归,但只采用PeptideProphet所用参数的新模型,本文探讨了Oscore具有更好的判别能力的原因。 目前的Oscore针对的是具有完全酶切的末端(即多肽的两端都是由胰酶酶切在氨基酸K或R之后产生)的多肽,提高非完全酶切的多肽的鉴定水平将是今后的工作。

蛋白质;相互作用;Logistic回归分析;串联质谱技术;多肽;机器学习算法

清华大学医学部;北京协和医学院;中国医学科学院

博士

病理及病理生理学

高友鹤

2008

中文

Q51;Q503

128

2009-09-28(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅