学位专题

目录>
<

人类基因组分析中的缺失偏倚效应研究和拷贝数变异的突变估计

傅雯卿
复旦大学
引用
技术的革命将遗传学的研究引入了组学的时代,通过芯片技术的运用产生了大量的遗传数据。为了深入地对数据进行挖掘,其他学科,如统计学、信息学等,与遗传学的结合越来越紧密。本文就五年来本人攻读博士学位期间的工作进行了总结,期望通过对两部分工作的介绍,展示统计学运用于解决遗传学问题的实例。  其一,我们对高通量单核苷酸多态分型平台的缺失偏倚现象及其对后续分析的影响进行了探究。高通量、低成本的分型平台的出现,使全基因组关联分析成为了可能。但是研究者往往将关注的目标及于如何提高分型的准确率,而忽视了另一质量问题——缺失数据的存在。为了研究缺失现象对全基因组关联分析的影响,我们对四个主流分型平台(TaqMan(@) SNP分型平台、GenomeLabTM SNPstream分型平台、BeadLab(Illumina)分型平台和Human Mapping500K(Affymetrix)芯片)的缺失数据进行了重测序分型,实验证实了缺失偏倚现象在多个平台中均普遍存在。进而,我们从理论上分析了缺失偏倚对后续分析的影响,如等位基因/基因型频率的估计、哈迪——温伯格平衡检验和不同疾病模型下关联分析统计功效的影响等。研究显示,缺失偏倚往往导致关联分析统计功效的下降,而且这种下降通常要比单纯的样本缺失造成的影响严重。我们还分别比较了缺失偏倚、分型错误对频率估计、关联分析的影响。通过分析获知,大多数情况下因为分型质量问题造成的分析偏差可以通过提高分型响应度,即使会牺牲一定的分型准确率来尽可能避免、减小。这一发现提示我们过去通常对处于分型边界的读点进行不判读的做法需要被修正。如果是为了降低分析偏差,在全基因组关联分析中,分型响应度和错误率的筛选标准要互相配合。我们建议修改现行的质量控制标准,可以适当增加响应度的阈值而降低对分型准确率的要求。  其二,我们提出了近似估计拷贝数变异突变率的统计新方法。人类基因组中存在着拷贝数变异,而且这种变异和孟德尔遗传疾病、复杂疾病以及进化中的基因组可塑性相关。为了更好的理解拷贝数变异相关性状的成因,研究拷贝数变异的生成机制、估计它的突变率是十分重要的。多项用于揭示拷贝数变异成因的研究已经开展起来;但是从基因组水平对拷贝数变异突变率进行实验估计还是一个不现实的问题,它需要大量的样本量和精确的分型技术。本研究提出了一种可以运用群体基因型数据对拷贝数变异突变率进行近似估计的方法。这一估计可以通过基因组中不同拷贝数变异的比较,找寻到拷贝数变异的突变热点。运用该方法我们分析了来自HapMap计划的三个群体、4,330个拷贝数变异位点,发现大多数的拷贝数变异突变率大致在10-5/代水平,这与分子实验观察到的零星突变率估计相一致。值得一提的是,有132(3.0%)个拷贝数变异的突变率可达10-3/代水平,被认为是突变热点。进一步的分析发现,基因组结构和重排机制的不同可能造成了人类基因组中拷贝数变异热点的存在。  在不久的将来,由二代测序技术产生的海量数据将不断地涌现出来,许多悬而未决的遗传问题有望获得解决。对这些数据的挖掘工作离不开统计学、信息学等的运用,让我们做好准备迎接生命科学发展的这一黄金时代的到来。

单核苷酸多态性;缺失偏倚;拷贝数变异;突变估计

复旦大学

博士

遗传学

金力

2010

中文

Q344.12

138

2014-09-17(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅