10.3969/j.issn.0254-0037.2006.05.015
基于特征信息增益权重的文本分类算法
为了在分类精度不受损失的情况下提高训练速度,设计了3种基于信息增益(information gain,简称IG)特征权重的分类算法,分别被命名为:IG-C1、IG-C2、IG-C.它们根据特征对IG贡献的大小及在新文本中出现的次数进行分类.这3种算法都具有较低的时间复杂度和实现简单的特点.实验结果表明,其中IG-C的分类效果最为理想.
文本处理、信息分类、特征提取、熵
32
TP274+.3(自动化技术及设备)
中国科学院资助项目60173014;北京市自然科学基金4022003
2006-06-27(万方平台首次上网日期,不代表论文的发表时间)
共5页
456-460