期刊专题

10.19665/j.issn1001-2400.2021.06.020

融合k均值聚类与LSTM网络的半监督词义消歧

引用
一词多义是自然语言所固有的特性.词义消歧是根据上下文来确定歧义词汇的含义,是自然语言处理领域中的一项关键技术.目前,词义消歧被广泛地应用于机器翻译、信息检索和文本分类之中.为了提高词义消歧的准确率,提出了一种结合k均值聚类与长短期记忆网络的半监督词义消歧方法.以歧义词汇为中心,选取左右两个邻接词汇单元,形成大小为4的词窗.从词窗中选取词形和语义类作为聚类特征,利用k均值聚类方法对无标注语料进行聚类.将聚类得到的语料加入SemEval-2007:Task#5的训练语料中,以扩充训练语料的规模.从词窗中选取词形、词性、语义类、英文译文和消歧距离作为消歧特征,使用长短期记忆网络来确定歧义词汇的语义类别.利用扩充后的训练语料来优化长短期记忆网络的参数.使用SemEval-2007:Task#5的测试语料对词义消歧分类器进行测试.通过实验分析了隐藏层数和训练语料规模对词义消歧的影响.实验结果表明:相对于贝叶斯分类器和深度信念网络而言,所提出的方法能够提高词义消歧的准确率.

词义消歧、k均值聚类、长短期记忆网络、聚类特征、消歧特征

48

TP391.2(计算技术、计算机技术)

国家自然科学基金;国家自然科学基金;中国博士后科学基金;黑龙江省普通高校基本科研业务费专项;黑龙江省自然科学基金;黑龙江省自然科学基金;哈尔滨市科技创新人才研究专项

2022-04-24(万方平台首次上网日期,不代表论文的发表时间)

共11页

161-171

相关文献
评论
暂无封面信息
查看本期封面目录

西安电子科技大学学报(自然科学版)

1001-2400

61-1076/TN

48

2021,48(6)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn

打开万方数据APP,体验更流畅