10.3969/j.issn.1001-0645.2005.04.014
中文停用词表的自动选取
通过对现有基于统计的停用词选取方法的考察,提出了一种新的停用词选取方法.用该方法分别计算词条在语料库中各个句子内发生的概率和包含该词条的句子在语料库中的概率,在此基础上计算它们的联合熵,依据联合熵选取停用词.将该方法与传统方法选取的停用词表进行了对比,并比较了将各种方法用于文本分类的预处理时对分类效果的影响.实验结果表明,该方法更好地避免了语料的行文格式对停用词选取的影响,比传统方法更适用于文本分类的预处理.
停用词、中文停用词表、联合熵
25
TP391.1(计算技术、计算机技术)
2005-06-02(万方平台首次上网日期,不代表论文的发表时间)
共4页
337-340