10.3969/j.issn.1673-5439.2013.05.011
一种基于改进互信息和信息熵的文本特征选择方法
互信息是一种常用的特征选择评价函数,但研究表明它会导致分类精度相对较低.文中针对互信息倾向选择低频词的不足,提出了一种新的特征评价函数TFMIIE,将信息熵和改进互信息相结合,其中改进互信息能够避免偏向低频的生僻词,而特征熵有利于去除类别不确定的特征词.实验结果表明,采用TFMIIE进行特征选择,用得到的特征子集表示文本和构建分类器,文本分类的准确率与召回率比采用互信息的方法提高了约40%,验证了所提出的基于改进互信息和信息熵的文本特征选择方法是有效的.
特征选择、文本分类、评价函数、互信息、信息熵
33
TP391(计算技术、计算机技术)
国家自然科学基金61170322,71171117;江苏省自然科学基金BK2010524
2013-11-25(万方平台首次上网日期,不代表论文的发表时间)
共6页
63-68