期刊专题

10.3969/j.issn.2095-2163.2023.07.002

结合双预训练语言模型的中文文本分类模型

引用
针对Word2Vec等模型所表示的词向量存在语义模糊从而导致的特征稀疏问题,提出一种结合自编码和广义自回归预训练语言模型的文本分类方法.首先,分别通过BERT、XLNet对文本进行特征表示,提取一词多义、词语位置及词间联系等语义特征;再分别通过双向长短期记忆网络(BiLSTM)充分提取上下文特征,最后分别使用自注意力机制(Self_Attention)和层归一化(Layer Normalization)实现语义增强,并将两通道文本向量进行特征融合,获取更接近原文的语义特征,提升文本分类效果.将提出的文本分类模型与多个深度学习模型在 3 个数据集上进行对比,实验结果表明,相较于基于传统的Word2Vec以及BERT、XLNet词向量表示的文本分类模型,改进模型获得更高的准确率和F1 值,证明了改进模型的分类有效性.

预训练语言模型、双向长短期记忆网络、自注意力机制、层归一化

13

TP391(计算技术、计算机技术)

全国统计科学研究项目2020LY080

2023-08-29(万方平台首次上网日期,不代表论文的发表时间)

共7页

1-6,14

相关文献
评论
暂无封面信息
查看本期封面目录

智能计算机与应用

2095-2163

23-1573/TN

13

2023,13(7)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn

打开万方数据APP,体验更流畅