10.3969/j.issn.2095-2163.2023.01.028
基于MPNet与BiLSTM的COVID-19临床文本命名实体识别方法
随着生物医学研究与信息化技术的迅速发展,临床医学文献数量呈指数级增长,利用文本挖掘技术自动提取医学知识逐渐成为当前研究热点.针对目前新型冠状病毒肺炎(Corona Virus Disease 2019,COVID-19)临床文本研究匮乏、语料不足与标注质量不高等问题,本文结合UMLS医学语义网络和专家定义方式,制定医学实体标注规则,建立命名实体识别语料库,明确实体识别任务.其次,提出了一种基于MPNet与BiLSTM的COVID-19临床文本命名实体识别模型.通过预训练语言模型获得文本的向量化表示,解决了一词多义问题;采用双向长短期记忆网络,捕捉文本的长距离依赖;最后引入条件随机场,实现句子级序列注释,输出完整的最优标签序列.实验结果表明,MPNet-BiLSTM-CRF模型在COVID-19临床命名实体识别数据集上取得了较好的表现.
COVID-19、命名实体识别、双向长短期记忆网络、条件随机场
13
TP391;R319(计算技术、计算机技术)
国家科技重大专项;上海市科技创新行动计划
2023-02-20(万方平台首次上网日期,不代表论文的发表时间)
共8页
164-170,177