期刊专题

10.16353/j.cnki.1000-7490.2019.09.024

学术文本被引片段的自动识别研究

引用
[目的/意义]目前学术文献被引片段识别研究存在两个问题:对于给定的一个引文上下文,其所对应的被引片段句子数量并没有明确的定义;构建特征中很少考虑句子中词语的语义相似度特征.文章基于以上两个角度,对已有的实验方案进行改进,旨在提高被引片段的识别效果.[方法/过程]首先,按照不同的粒度对被引文献进行句子切分,以考察不同粒度切分下被引片段的识别效果,从而确定被引片段的最佳句子数量.随后,在被引片段识别模型中加入词语语义相似度特征,即通过词嵌入进行分布式词向量表示,并依据词汇语义网络本体,度量不同句子中词语间的语义相似度.[结果/结论]实验结果表明,随着句子切分粒度的逐渐增加,被引片段识别效果呈下降趋势;另外,所增加的词语语义相似度特征能够有效地在句子间建立细粒度的语义关联,提高了模型的稳定性,从而提升了被引片段的识别效果.[局限]仅从特征构建的角度对被引片段的识别工作进行优化,提升效果较为有限.模型选择方面,仍局限于使用传统的机器学习算法,未考虑现有的深度学习算法对本工作进行改进.

学术文献、被引片段、引文分析、文本分类、语义相似度

42

国家社会科学基金重大项目“情报学学科建设与情报工作未来发展路径研究”17ZDA291;江苏省研究生科研创新计划项目“学术文献引文域自动识别研究”项目KYCX18_0365的成果

2019-10-18(万方平台首次上网日期,不代表论文的发表时间)

共7页

139-145

相关文献
评论
暂无封面信息
查看本期封面目录

情报理论与实践

1000-7490

11-1762/G3

42

2019,42(9)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn

打开万方数据APP,体验更流畅