学位专题

目录>
<

基于LDA主题模型的病症分析系统设计与实现

赵玉凤
河北工程大学
引用
医疗是一个为全民提供服务的行业。随着医疗数据日益丰富,为充分利用医疗文本数据,从中获取有价值的信息,并将其运用到实际生活中,是医疗行业顺应时代发展的需要。本文利用主题模型对病症文本数据进行深入分析,构建病症知识库实现病症问答分析,有助于患者根据自身病症了解所患疾病,辅助医生进行临床决策,为分析病症发展趋势以及自主诊断等提供技术支撑。研究内容如下。  (1)针对病症文本数据中不同词性的重要度存在差异的问题,提出根据词性设置不同的贡献权重。首先,构建医疗专业词汇分词词典;然后,对病症文本数据进行筛选、中文分词、词性标注和去停用词;最后,根据相应词性,对全局向量模型(GlobalVectorsforWordRepresentation,简称GloVe)建模后的词向量进行词性贡献权重标注,进而计算病症文本向量。  (2)针对K-Medoide聚类算法在计算相似度时准确率不高的问题,提出基于隐含狄利克雷分布(LatentDirichletAllocation,简称LDA)主题模型的病症文本聚类算法(LGamp;K-Medoide),采用LDA和GloVe相似度结合改进距离函数的方法,获取科室主题聚类。首先,利用LDA建模病症文本,采用JS距离(Jensen–Shannon,简称JS)计算文本相似度;其次,使用GloVe建模获取词向量,根据病症词性贡献度标注词向量权重,采用余弦距离计算基于GloVe建模加权的文本相似度;最后,利用相似度结合改进距离公式,优化K-Medoide聚类。  (3)针对现有病症分析系统模式单一的问题,搭建基于LDA主题模型的病症分析系统。首先,对病症分析系统进行需求分析和框架设计;然后,构建包含疾病、症状、科室、药物、检查方法等实体间关系的病症知识库;其次,搭建疾病症状分析、科室病症分析和病症问答分析等可视化界面;最后,提取MySQL数据库中的病症文本和检索Neo4j图数据库中的答案进行分析展示,从而实现病症分析和病症问答功能。  综上,本文提出的基于LDA主题模型的病症文本聚类算法在病症文本数据集上具有更高的聚类精度;搭建的基于LDA主题模型的病症分析系统,能够帮助患者随时根据自身病症得到相应的指导意见,为主题模型聚类在医疗分析领域的应用奠定了基础,为自主病症诊断提供了新思路。

病症分析系统;文本聚类;LDA主题模型;全局向量模型;文本相似度

河北工程大学

硕士

计算机技术

吴迪

2022

中文

TP391.1

2023-08-22(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅