基于语义簇构建隐马尔可夫模型的文本分类方法研究

董涛

北京化工大学

下载全文

在线阅读

引用

摘要：

文本分类作为文本挖掘领域中一个非常重要的研究方向，对文本数据的组织、管理和处理具有重要意义，在信息检索、数字图书馆、搜索引擎、文本信息过滤等领域有着广泛的应用。虽然文本分类的研究已经取得不小的进展，但目前为止仍有一些尚待解决的问题，例如，相关特征词的信息度量，分类器的增量更新和在线更新，以及分类器性能随类别数增加而降低等问题。本文围绕上述问题展开研究，提出了一种基于语义簇构建隐马尔可夫模型的文本自动分类方法，主要工作和创新点包括以下几个方面:　　 (1)特征词分类信息的度量　　在对比了几种已有的特征词分类信息的度量方法后，借鉴TF-IDF权重，对公式进行了调整，使之可以针对特征词的不同类别度量分类信息的权重，然后利用不同分类信息权重将特征词进行向量表示，实验表明特征词向量可以很好的表达特征词的分类信息。　　 (2)提出建立层次语义簇模型的方法　　利用层次聚类方法对特征词向量进行聚类，所得层次语义簇簇内相似度大，簇内特征词分类信息相近，能够表征这一类具有相似分类特性的特征词。通过层次语义簇模型提出一种将文本序列化表示方法，文本序列表现出状态转移的特性。然后考察了聚类迭代截止阈值的确定问题和特征词间相似度计算量过大的问题，并给出相应解决方案。实验表明语义簇模型能够达到降维和突出分类信息的目的。　　 (3)文本分类器结构设计　　针对训练集类别建立相互独立的隐马尔可夫模型，并据此提出了一种文本分类器结构，分类器中文本模型互不耦合，文本模型与分类判决器相互独立。然后讨论了利用所提出的文本分类器结构实现增量更新和在线更新的方法和工作量。　　实验表明，该方法一方面可以在大文本数据量情况下有效利用文本分类信息，提高分类精度;同时，相比于其他方法，算法性能受到类别数目的影响较小。

关键词：文本分类器;隐马尔可夫模型;层次语义簇;特征词向量;结构设计

授予单位：北京化工大学

授予学位：硕士

学科专业：计算机应用技术

导师姓名：李芳

学位年度：2013

语种：中文

分类号：TP391.1

页数：82

在线出版日期：2013-12-31（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

基于语义簇构建隐马尔可夫模型的文本分类方法研究