10.16353/j.cnki.1000-7490.2023.06.022
基于论文题录的数据线索识别与知识图谱构建
[目的/意义]从研究成果中抽取数据线索,进而构建针对特定主题的数据索引,有助于提升研究者查找数据的全面性.[方法/过程]以社会科学领域所有学科中文核心期刊中关于"COVID-19"论文的题录信息为例,分三步进行了探索.①随机抽取1000篇摘要进行人工标注,然后以此为基础使用自适应增强等模型训练分类器,进而使用分类器识别出使用了数据的论文.②从使用数据的论文摘要中标注出数据线索实体,进而使用隐马尔可夫、长短期记忆网络等模型进行实体识别.③使用Neo4j数据库,基于抽取出的数据线索与题录中的其他信息构建知识图谱.[结果/结论]在判断论文是否使用了数据的任务中,自适应增强模型的F1值最高,达到0.869.在数据线索实体识别任务中,隐马尔可夫模型的F1值最高,达到0.805.由抽取出的数据线索与论文关键词、作者、期刊等信息融合构建的知识图谱能够实现基于主题词查找数据线索、基于数据线索查找其他信息等应用.
数据线索、机器学习、题录、实体识别、知识图谱
46
TP391.1;G270;TP18
国家社会科学基金22CTQ025
2023-06-30(万方平台首次上网日期,不代表论文的发表时间)
共8页
161-167,154