垃圾邮件过滤算法研究

刘洋

渤海大学

下载全文

在线阅读

引用

摘要：

随着互联网的普及，电子邮件以其快捷，方便的优点逐渐发展成为人们工作和生活的重要通信工具之一。然而，随之而来的垃圾邮件问题也日益严峻，它不仅传播有害信息，而且耗费大量的公共资源。所以，邮件过滤算法的研究具有特别的现实意义。　　本文对垃圾邮件过滤算法进行了研究，其主要包括：贝叶斯和支持向量机。还将反馈学习技术应用到垃圾邮件过滤中。　　贝叶斯算法是一种基于统计的算法，其训练和分类速度非常优秀，但召回率不高。本文提出一种改进的垃圾邮件过滤算法，该算法能有效地识别垃圾邮件。实验证明,提高了垃圾邮件过滤的准确率和召回率。　　支持向量机是在统计学习理论上发展起来的一种新的模式识别算法，它在解决小样本、非线性和高维输入空间等分类问题表现出很多的优势，现已成为研究的热点，但目前垃圾邮件过滤采用的是传统支持向量机，而传统支持向量机只能处理明确归属的邮件，对于不能明确归属的邮件，即我们说的噪音点和野值却无能为力，为了避免噪音点和野值对过滤的影响，本文在传统支持向量机基础上，提出了一种基于模糊支持向量机的邮件过滤算法，通过模糊隶属度的计算和惩罚因子的有效选择，成功地减少了噪音点和野值对邮件过滤的干扰，实验证明，在垃圾邮件的过滤中取得了较高的准确率。　　此外，论文研究了反馈学习技术在垃圾邮件过滤中的应用。反馈训练具有反馈学习数据少的优点，利用错误驱动进行训练，以达到很高的分类效果。随着反馈的进行,反馈学习能捕捉到电子邮件的内容和用户需求的变化，分类性能逐步提高。

关键词：垃圾邮件过滤;贝叶斯算法;支持向量机;隶属度;反馈学习

授予单位：渤海大学

授予学位：硕士

学科专业：计算机软件与理论

导师姓名：秦玉平

学位年度：2008

语种：中文

分类号：TP391

在线出版日期：2023-04-18（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

垃圾邮件过滤算法研究