基于全局评价的文本分割技术研究
本文介绍了文本分割的历史发展和现状,对当前文本分割领域的主流方法进行了讨论,并结合文本分类任务对文本分割任务中所存在的问题及典型的解决方案进行了介绍.对统计模式识别中的一个重要概念Fisher线性分析做了较详细的研究,并采用其中的一种形式即基于欧式空间的类内类间距离方法作为评价函数,结合使用聚类的思想设计了一套算法,应用于文本分割任务.重复了TextTiling算法在确定分割方式和语义段落数目的试验,并在试验的改进部分里阐述了其方法的一些不足之处,对比这些不足本文所提出的方法有了较明显的性能改善,较之TextTiling的方法高出近10个百分点.同时对于语义段落数目的确定本文的方法也较之TextTiling方法有极大的改善.
文本分割;Fisher线性分析;类内类间距离;聚类分析;模式识别
东北大学
硕士
计算机系统结构
朱靖波
2004
中文
TP391.4;TP301.6
55
2005-09-26(万方平台首次上网日期,不代表论文的发表时间)