10.3969/j.issn.1000-386X.2011.09.028
一种改进的集中度和分散度文本特征选择算法
特征选择算法(TFFS)存有一定的不足:集中度难于正确衡量低频繁特征项的权值;分散度忽略了互信息为负数的特征项对文本分类的影响.提出一种改进的特征选择算法(TFFSL),TFFSL对集中度、分散度做了一定的改进,避免了TFFS的缺陷,同时TFFSL结合特征项长度信息,提高了短语和词语在分类中的作用.SVM分类实验结果表明:与TFFS相比,TFFSL有更高的文本分类性能和剔除无关特征项的能力.
互信息、特征选择、文本分类、特征权重、支持向量机
28
TP301.6(计算技术、计算机技术)
浙江省自然科学基金X105739
2012-01-14(万方平台首次上网日期,不代表论文的发表时间)
共4页
96-98,125