10.3969/j.issn.0372-2112.2018.01.028
基于主动学习和否定选择的垃圾邮件分类算法
针对现在网络上泛滥的垃圾邮件问题,本文结合主动学习方法和否定选择算法提出了一种二类文本分类方法:主动否定学习算法.根据用户少量标注建立双向兴趣集,利用否定选择算法的自体异常检测机制改善主动学习中的采样策略,并将双向兴趣集作为检测器,新增样本集作为自体集,对两者进行异常匹配.本文算法与在线垃圾邮件快速识别方法、增强差异性的半监督协同分类算法、垃圾邮件过滤方法、基于人工高免疫的多层垃圾邮件过滤算法和在线主动多领域学习方法在六个常用邮件语料集上进行了分析比较,结果表明本文算法具有较高的准确率、召回率、分类精度,和较低的用户标注负担.使用用户个性喜好转换为双向兴趣特征的方式有助于提高算法的分类能力;利用异常检测匹配选取未知类别特征的方式,有效地降低了用户标注负担.
文本分类、垃圾邮件检测、主动学习、否定选择、双向用户兴趣集
46
TP391(计算技术、计算机技术)
吉林省自然科学基金20150101054JC;吉林省博士后科研资助项目40301919;吉林省科技发展计划重点科技攻关项目20150204036GX;中国博士后科学基金2016M591482
2018-07-02(万方平台首次上网日期,不代表论文的发表时间)
共7页
203-209