学位专题

目录>
<

基于深度学习和多维度编码分子信息的分子属性预测研究

王晨斌
兰州大学
引用
药物发现是一个高风险、高投入且成功率较低的过程。为提高药物研发的效率,降低药物研发的风险和成本,深度学习技术已经被成功应用于药物发现的各个阶段。其中,基于深度学习对分子属性快速准确预测,能显著加速先导化合物的发现和优化过程,在药物发现中发挥着不可或缺的作用。然而目前基于深度学习的分子属性预测方法中仍存在较多问题有待进一步解决,如大部分现有模型缺乏可解释性、模型的泛化能力差、对分子特征的描述不够全面等。其中,分子表征方法是能影响模型准确性、提升模型可解释性和泛化能力的重要因素,本论文针对现有分子表征模型方法的不足,重点开展了如下两个工作:  1. 为构建全面的分子表征方式,本工作提出了一个基于注意力机制的多维度表征的分子属性预测模型—Attention based Sequence and Graph Encoder (ASGE)。模型使用频繁连续子序列算法(Frequent Consecutive Subsequence, FCS)将 SMILES 序列分解为更小的子序列结构或者单个原子结构,并以 Transformer模型架构为基础构建分子序列编码器,编码药物分子序列特征。此外,利用RDKit将SMILES处理成为分子图,并利用图注意力网络AttentiveFP编码分子图特征信息,提取分子中所包含的原子和键结构信息,学习分子内关键节点和连接。最终经特别设计的特征解码器融合序列和图特征信息预测分子属性。本工作使用MoleculeNet中的8个数据集对模型进行训练、验证和测试,ASGE在其中6个数据集中获得最佳性能,如在ClinTox数据集中,ASGE的AUC值要比FP-GNN高出0.081,在BACE数据集中,ASGE的AUC值要比GraSeq高出0.082。并对影响分子属性的关键节点可视化,为分子的进一步优化设计提供了一定程度的指导。还通过大量消融实验验证了多维度编码分子对提升模型性能的必要性,证实了我们的模型 ASGE 利用多维度的分子表征方式编码分子特征能够全面准确地预测分子属性。这为以后的研究提供了一种新的分子特征融合思路,并能广泛应用于其他药物发现的模型任务中。  2. 基于融合分子图信息、组合分子指纹信息以及三维空间信息多种维度表征编码药物分子,发展了一个基于图神经网络的分子属性预测模型—3D Spatial Structure and Molecular Fingerprint Graph Network(3DF-GNN)。该模型同时考虑三种维度的分子表征方式,利用RDKit得到分子的二维分子图和三维空间信息,构建引入额外注意力机制的卷积神经网络进行编码,捕捉重要的分子特征信息。此外,还组合了两种不同侧重的分子指纹,并利用深度神经网络学习分子指纹特征信息,最终融合两条路径上所有的特征信息预测分子属性。本工作分别在分类和回归7个广泛使用的基准数据集中开展实验评估模型性能,整体上在5个数据集中获得最佳性能,1 个数据集中获得次优性能,如在 FreeSolv 数据集中 3DF-GNN模型的RMSE值比AttentiveFP模型降低了0.671,在HIV数据集中3DF-GNN模型的AUC值比FP-GNN模型高出了0.042。并通过大量的消融实验,验证了考虑空间信息的多维度编码对表征药物分子的重要意义,证明了模型 3DF-GNN 的优越性。此外,对分子关键节点的可视化结果分析也为分子更进一步优化设计提供了一定程度的指导。据研究调查,本工作所提出的3DF-GNN是第一个综合考虑三维空间信息、分子图和互补组合分子指纹信息预测分子属性的研究,具有首创性意义。我们所提出的模型方法3DF-GNN能够准确预测分子属性,其设计思路也为进一步探索准确预测分子属性的模型提供了参考,此外,还可以作为一个强大而有效的计算工具来解决分子表征学习这个挑战性问题,最后,我们还针对该模型创建了相关网站,以便药物研究人员使用。  本论文主要从多维度编码表征药物分子进而提高分子属性预测准确性的思路开展了两项研究工作,并开发了两个神经网络模型架构。特别是本论文提出的融合多种维度分子特征以及考虑高维度分子结构特征能够更全面的表征分子,为分子表征学习提供新思路,助推药物研发进展,具有重要的理论和实际应用价值。

药物发现;分子属性预测;分子表征学习;注意力机制;图神经网络

兰州大学

硕士

药学

刘焕香

2023

中文

R965.1

2023-09-14(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅