10.19665/j.issn1001-2400.2021.06.020
融合k均值聚类与LSTM网络的半监督词义消歧
一词多义是自然语言所固有的特性.词义消歧是根据上下文来确定歧义词汇的含义,是自然语言处理领域中的一项关键技术.目前,词义消歧被广泛地应用于机器翻译、信息检索和文本分类之中.为了提高词义消歧的准确率,提出了一种结合k均值聚类与长短期记忆网络的半监督词义消歧方法.以歧义词汇为中心,选取左右两个邻接词汇单元,形成大小为4的词窗.从词窗中选取词形和语义类作为聚类特征,利用k均值聚类方法对无标注语料进行聚类.将聚类得到的语料加入SemEval-2007:Task#5的训练语料中,以扩充训练语料的规模.从词窗中选取词形、词性、语义类、英文译文和消歧距离作为消歧特征,使用长短期记忆网络来确定歧义词汇的语义类别.利用扩充后的训练语料来优化长短期记忆网络的参数.使用SemEval-2007:Task#5的测试语料对词义消歧分类器进行测试.通过实验分析了隐藏层数和训练语料规模对词义消歧的影响.实验结果表明:相对于贝叶斯分类器和深度信念网络而言,所提出的方法能够提高词义消歧的准确率.
词义消歧、k均值聚类、长短期记忆网络、聚类特征、消歧特征
48
TP391.2(计算技术、计算机技术)
国家自然科学基金;国家自然科学基金;中国博士后科学基金;黑龙江省普通高校基本科研业务费专项;黑龙江省自然科学基金;黑龙江省自然科学基金;哈尔滨市科技创新人才研究专项
2022-04-24(万方平台首次上网日期,不代表论文的发表时间)
共11页
161-171