学位专题

目录>
<

基于知识图谱和深度神经网络的健康知识问答系统

宋卫强
河北工程大学
引用
随着科技和经济的迅速发展,搜索引擎率先为用户寻找医疗健康信息提供了途径。然而随着信息量呈几何倍数的增长,搜索引擎在问答方面所表现出来的问题越来越明显。诸如答非所问、答案繁杂、无法准确理解用户查询请求、信息反馈效率低等问题。知识图谱的迅速发展为其他各个领域提供了数据支撑。知识图谱通过三元组的形式保存实体以及相关属性,通过语义网络的形式描述现实世界中的实体以及关系。通过将健康知识知识图谱与问答系统相结合,能够为用户直接简洁的提供答案。同时加快了健康知识的传播。本文主要提出了命名实体识别模型BERT-IDCNN-CRF,并基于此模型,设计和实现了基于知识图谱的健康知识问答系统,有效提升了问题的识别率和问题回复的正确率。  本文主要的研究内容与贡献有:  1.本文构建了医疗健康领域的知识图谱:利用Python的爬虫技术分别从“家庭医生”、“寻医问药网”、“39健康网”爬取医疗健康相关数据。对数据进行知识抽取、知识融合,得到了医疗健康领域相关的实体和关系,最终构建起医疗健康知识图谱,并且保存在Neo4j数据库中。  2.本文搭建了BERT-IDCNN-CRF命名实体识别模型:考虑到BiLSTM无法利用GPU并行计算,导致模型的训练效率较低,本文选用IDCNN代替BiLSTM,IDCNN可以看作是加入了膨胀宽度以后的CNN,当卷积核在连续的区域内滑动的过程中能够忽略掉膨胀宽度间的数据,以此得到更广的输入矩阵,做到解决远距离依赖的同时提升训练效率。同时为了防止出现非法的标签序列,结合CRF完成实体识别。通过多组对比实验,证明了本文模型能够有效的完成健康知识方面的命名实体识别。  3.本文构建了基于知识图谱和深度神经网络的健康知识问答系统。在构建的医疗健康知识图谱和所设计的命名实体识别模型的基础之上,实现了基于知识图谱的健康知识问答系统。首先分析了该系统的系统设计以及技术路线。该系统主要分为问题解析、模板匹配、执行查询三大部分。在问题解析部分,BERT-IDCNN-CRF模型可以提取出问题中的实体,利用分词工具提取问句中的关键词,与预先设置好的模板进行比对。最终根据实体以及用户意图生成查询语句,完成对答案的检索。本系统可以提供界面与用户进行实时互动,将问答的结果以文字的形式反馈给用户,同时对于无法回答的问题进行记录。  实验结果表明,将本文所提出的命名实体识别模型应用在健康知识问答系统中能够有效提升问答的效果,同时能够促进医疗健康知识的传播。

问答系统;知识图谱;实体识别;深度神经网络

河北工程大学

硕士

计算机技术

申艳光;董强

2022

中文

TP391.1

2023-08-22(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅