10.3969/j.issn.1001-2400.2013.02.015
面向文本分类的中文文本语义表示方法
为了解决词频统计文本表示方法中词语间语义信息缺失的问题,在考虑文本中词语上下文语境和语义背景信息的基础上,提出了一种新的中文文本表示模型——文本语义图.该方法利用维基百科作为知识背景计算文本中实意特征词语的语义关联,将具有较强语义关系的词语合并成词包作为图的节点,节点权值用词包所包含词语的数目及词频计算;不同词包中词语间的上下文关系作为图的有向边,有向边权值用其邻接节点的最大权值表示.该模型在较大程度地保留文本中词语上下文信息的同时强化了词语间语义内涵.通过中文文本分类实验,文本语义图分类方法相对于支持向量机分类效率提升了7.8%,同时错误率减少了1/3,且表现出更好的稳定性.实验结果表明在文本分类应用中,文本语义图模型能够有效地表示文本内容.
分类、知识表示、相似度、文本语义图
40
TP391(计算技术、计算机技术)
国家自然科学基金资助项目JJ0500092301;中央高校基本科研业务费资助项目K50510230003
2013-05-31(万方平台首次上网日期,不代表论文的发表时间)
共10页
89-97,129