基于混合深度学习模型的临床医学文本分类研究

周永称

中国医学科学院北京协和医学院

下载全文

在线阅读

引用

摘要：

随着我国“双一流”建设战略的持续推进，大型公立医院日益重视自身学科建设。尤其当今医院的地域优势逐渐削减，竞争压力越来越大，加强学科建设成为提升医院竞争力、促进医院发展的内在需求。而学科评估是学科建设过程中的重要一环，它不仅是评估学科建设成果、发现学科建设问题、指导学科建设方向的重要方法，也是提高医院核心竞争力的重要手段。在学科评估中，将SCI论文等文本数据按照学科评估体系进行数据分类是开展学科评估工作的基础，学科分类的准确性和效率对学科评估工作的顺利推进影响甚大。　　目前公开发表的针对学科评估中文本分类的研究相对较少，在学科评估的文本分类实践中，中国医学科学院推出的STEM研究先后利用词表匹配和基于机器学习的文本分类方法开展临床医学学科文本数据的分类工作，词表匹配方法存在学科词表构建难度大、时间成本高等问题。基于机器学习的文本分类算法存在不考虑词的语义关系，特征工程过程中会损失分类信息且模型的计算能力不足等问题。这些问题导致STEM研究中文本分类的整体分类性能不佳且相似学科容易彼此错分。考虑到深度学习方法在文本分类研究中被广泛运用，且在新闻语料、社交网站评论语料等语料集上比基于机器学习的文本分类方法拥有更好的分类性能，因此本研究在学科评估的文本分类研究中引入深度学习相关模型，构建基于混合深度学习模型的临床医学学科文本分类模型，本研究的主要工作包括:　　(1)设计和实现基于混合深度学习模型的临床医学学科文本自动分类模型。本研究在学科评估的文本分类中引入深度学习的思想与方法，在文本表示阶段利用词向量表示文本，在分类器构建阶段组合两个深度神经网络模型构建混合模型，以期解决学科评估中现有文本分类方法整体分类性能不佳且相似学科易错误分类的问题。利用STEM研究中的SCI论文数据开展实证分析，经过单标签多分类和单标签二分类实验，证实该模型对于多学科的整体分类性能从SVM模型的83.07％提升到90.82％，对于三对相似学科之间的分类性能从SVM模型的87.92％、88.48％、85.02％分别提升到95.80％、94.13％、95.76％。　　(2)构建医学学科评估文本分类原型系统。本研究以构建的混合模型为基础搭建医学学科评估文本分类原型系统。该原型系统可提供SCI论文的自动分类和人工复核服务，作为本研究在学科评估的文本分类实践中的应用场景初探。

关键词：医学文本分类;学科评估;深度学习;混合模型

授予单位：中国医学科学院北京协和医学院

授予学位：硕士

学科专业：情报学

导师姓名：安新颖

学位年度：2020

语种：中文

分类号：TP391.1

在线出版日期：2021-06-09（万方平台首次上网日期，不代表论文的发表时间）

个人中心

退出

学位专题

基于混合深度学习模型的临床医学文本分类研究