面向基因数据的聚类算法和疾病关联研究

王婷

武汉纺织大学

下载全文

在线阅读

引用

摘要：

从批量细胞转录组测序技术到单细胞转录组测序（scRNA-seq）技术的突破，给广大研究人员提供了从单个细胞层面研究基因表达转录等生物学问题开辟了新的道路。原本基于批量细胞数据开发的聚类方法不再适用于单细胞数据，因此构建适合于单细胞数据特点的聚类算法是目前该领域待解决的热点问题。然而面对单细胞测序数据样本量少、基因表达随机性、细胞的低捕获和低测序效率产生大量的技术和生物噪音，导致单细胞转录组测序数据具有高维度、高噪声、高通量以及受批次效应影响的特点。　　本课题从单细胞基因表达数据的特点出发进行聚类算法的研究，提高算法模型的聚类效果，针对单细胞基因数据的特点设计了一种基于流形学习和自动编码器的二次聚类算法模型（简称UASK聚类模型），并对基因与疾病的相关性展开研究。具体工作内容如下:　　1.针对单细胞转录组测序数据的高维度特点，设计基于流形学习和近似投影的基因降维算法模型，该模型对高维特征数据进行低维数据的初始化，能够很好的实现数据降维处理。同时与其他降维方法比较，证明基于UMAP降维框架的聚类算法性能更好。　　2.针对单细胞转录组测序数据的高噪声、稀疏性、具有大量缺失值特点，设计基于神经网络自动编码器方法的基因数据缺失值插补模型，解决大量的“假零值”表达对后续分析带来的困扰。针对高通量基因数据存在聚类运行效率慢精度低的问题，在聚类模块，引入自组织映射和k-means二次聚类算法，充分利用SOM神经网络速度快和k-means聚类算法精度高的优点，实现基因数据聚类性能提升，由此设计出一套完整的基于流形学习与自动编码器的基因数据二次聚类算法模型（简称UASK模型），使用该方法与SIMLR、scGMAI、CIDR、Seurat经典聚类算法比较ARI、NMI得分，UASK方法表现出较好的结果。　　3.面向基因数据的聚类分析在研究基因与疾病的关联等方面有着广泛的应用。因此展开基因与疾病的关联研究，利用Meta分析方法系统评价TCF7L2基因的多态性与2型糖尿病之间的关联，得出TCF7L2基因rs7903146位点的多态性与2型糖尿病具有强相关性的结论，更好的诠释了对基因数据的聚类分析研究意义。　　通过对以上工作内容的研究，完成了面向基因数据的聚类算法和疾病关联研究，构建了适合于单细胞数据特点的聚类算法，并解决了现有聚类算法处理单细胞数据时存在的质量低、聚类精度差、运行效率不高的问题。本文的研究内容对理解医学领域的问题，比如基因组与疾病起源、发展和治疗等方面具有理论意义和实际价值。

关键词：基因表达数据;聚类算法;降维处理;神经网络;自动编码器

授予单位：武汉纺织大学

授予学位：硕士

学科专业：软件工程

导师姓名：张本龚

学位年度：2023

语种：中文

分类号：Q811.4;TP311.13

在线出版日期：2023-08-28（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

面向基因数据的聚类算法和疾病关联研究