学位专题

<
DOI:10.7666/d.y1156465

真核生物中翻译起始位点与剪接位点的识别

刘利
内蒙古大学
引用
本文以数理算法为基础,通过机器学习的方法来识别基因的功能位点。对序列统计分析的结果表明:尽管蛋白质的翻译起始和内含子的剪切过程有着复杂的蛋白质相互作用的参与,并且受着高级结构等诸多因素的影响,但在其中仍然存在基本的规律,这就是在一级序列中这些功能位点有着相对比较保守的特征。 首先研究了脊椎动物基因的翻译起始位点(translation initiation site,TIS)。在真核生物中,翻译并不都是起始于第一个AUG密码子,还取决于AUG前后序列的信息。有文献报道接近40%的脊椎动物都包含有上游AUG,这就使翻译起始位点的预测变得很重要。本文结合位点倾向矩阵(position propensity matrix,PPM)和开放阅读框架(open reading frame,ORF)的长度分布特征建立了一个线性分类器,此分类器能很好地把翻译起始位点和存在于5’UTR里的所谓上游AUG区分开来,同时也被用于从全长mRNA中识别出翻译起始位点。对于脊椎动物的全长mRNA序列,运用核糖体扫描模型结合我们的分类器识别其翻译起始位点得到了很高的精度,总体预测率为97.8%。在人类全长mRNA上实验也得到了令人满意的结果。 另外,为了寻找优秀的算法识别人类基因的剪接位点(splice junction site),利用离散增量和位点倾向矩阵构成的六维向量来表示序列,用支持向量机(support vector machine,SVM)在向量空间中寻找最优超平面将真实的剪接位点和虚假的剪接位点进行分类。计算结果表明,利用此算法预测人类的剪接位点有较高的预测能力。与其他的一些算法相比,表现出参数少、精度高等优点。在数据集N269中检验,对于供体位点,真实位点识别率为96.7%,虚假位点的识别率为93.4%;对于受体位点,真实位点识别率为94.3%,虚假位点的识别率为92.9%。

翻译起始位点;剪接位点;支持向量机;基因功能位点;真核生物

内蒙古大学

硕士

生物物理学

李前忠

2007

中文

Q756;Q343.17

36

2007-11-30(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅