学位专题

<
DOI:10.7666/d.Y2123590

多维液相色谱质谱组合分析在志贺菌蛋白组基因组学中的应用

赵丽娜
清华大学医学部;北京协和医学院;中国医学科学院
引用
随着全基因组测序分析技术的快速发展,大量生物体的全基因组序列分析工作相继完成。对这些基因组的精确注释是其它组学研究的源泉和基础。目前,尽管通过生物信息学方法预测蛋白编码基因的可靠性在提高,但是由于其局限性仍会引起不少注释错误和遗漏。近年来,利用蛋白质组学方法完善基因组注释成为国际上的一个研究热点。由此诞生了一门新兴学科一蛋白组基因组学(proteogenomics),通过将质谱鉴定出的肽段定位到相应的基因组骨架上,从而把蛋白质组学数据和基因组注释进行有机整合。发展快速高通量的蛋白组基因组学研究方法仍是一项具有挑战性的工作。研究表明二维液相色谱联用基质辅助激光解吸离子化飞行时间串联质谱(2-DLC-MALDI-TOF/TOF)和二维液相色谱联用电喷雾串联质谱(2-DLC-ESI-MS/MS)的多维液相色谱质谱的组合分析可以提高鉴定蛋白的覆盖率,但目前还未见这种技术方法在基因组注释中的应用。我们实验室率先在国际上完成了志贺菌所有四个血清群代表株的全基因组序列分析工作,这使其成为一个理想的蛋白组基因组学研究对象。   本研究拟构建2-DLC-MALDI-TOF/TOF和2-DLC-ESI-MS/MS的组合分析体系以期有效地完善福氏志贺菌的基因组注释。   首先根据溶解性的不同对福氏2a志贺菌301株(S.flexneri2astr.301,Sf301)的全蛋白样品进行预分离,顺序抽提胞浆蛋白和膜蛋白,经胰酶消化后通过离线的2-DLC-MALDI-TOF/TOF和在线的2-DLC-ESI-MS/MS的组合鉴定分析,所用检索数据库为福氏2a志贺菌301株的6个读码框数据库,搜索引擎分别为MASCOT和SEQUEST。最终结果如下:   从蛋白水平验证了1231个已注释基因的表达,其在等电点pI、分子量MW和疏水性GRAVY方面的分布趋势与福氏2a志贺菌301株基因组已注释的4443个蛋白产物的分布一致。同时鉴定的蛋白涵盖了蛋白质直系同源簇数据库(clustersoforthologousgroupsofproteins,COGs)22功能分类组中20个,提示组合鉴定能够较好的体现了所用生物样品的蛋白质组构成情况;确认了306个假定(hypothetical)基因的表达,占福氏2a志贺菌301株总假定基因的16%;借助独创的“N-末端延伸数据库”分析方法和RT-PCR的进一步验证,3个基因(yhdP、yebJ和smpA)的翻译起始位点得到修正;另外发现两个由于测序错误造成的注释错误:假基因zwf更正为“6-磷酸葡萄糖脱氢酶”的编码基因,fusA的3'末端往下游延伸240bp;完善基因组注释最突出的贡献是发现了34个未注释的新基因,其中包括5个在其他肠道杆菌有注释而在福氏2a志贺菌301株未注释的基因以及29个全新的基因。9个新基因得到了RT-PCR或Northernblot的进一步验证。这些新基因的功能值得进一步研究。   本研究还对2-DLC-MALDI-TOF/TOF和2-DLC-ESI-MS/MS组合体系本身进行了综合分析和比较。在对鉴定肽的性质比较中发现,MALDI更倾向于离子化偏短的、碱性的、胰酶消化后C末端为精氨酸的肽段;ESI更倾向于离子化偏长的、疏水性的、胰酶消化后C末端为赖氨酸的肽段。经过优化组合,该组合分析体系大大提高了鉴定蛋白质的“质”和“量”。   综上所述,我们首次将2-DLC-MALDI-TOF/TOF和2-DLC-ESI-MS/MS组合体系应用到完善基因组注释工作中。由于MALDI和ESI的互补性,这种组合分析体系无论在蛋白质鉴定数量上还是可信程度上都要优于单一的串联质谱鉴定,鉴定的蛋白能够较好的体现生物样品的蛋白质组构成情况。用这种方法能够有效地完善福氏志贺菌的基因组注释,如已注释基因的验证、假定基因的确认、错误翻译起始位点的修正和假基因的判定,尤其是新基因的发现。因此这种技术体系具有良好的发展前景,可以推广到生物体的常规基因组注释工作中。

福氏志贺菌;基因组学;多维液相色谱质谱组合;蛋白组;技术方法

清华大学医学部;北京协和医学院;中国医学科学院

博士

微生物学

金奇

2010

中文

R378.25

106

2012-10-31(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅