基于支持向量机的P2P流量识别关键技术研究

宫婧

南京邮电大学

下载全文

在线阅读

引用

摘要：

随着互联网技术的发展和成熟，大量的P2P应用开始出现，这无论是对网络流量管理还是带宽控制，都给各级网络管理员以及网络服务提供商带来了很大困难，因此，如何对网络中的P2P流量准确识别成为当下研究的热点。本文通过对现阶段P2P流量识别技术的研究，对现有的P2P流量识别文献进行归类总结，将其分为四大类：端口识别法、应用层特征识别法、基于流量特征的识别法和基于机器学习识别法。通过对已有技术进行论述，本文提出可以用基于支持向量机的分类算法对P2P流量进行识别。　　为了提高支持向量机的分类算法在识别P2P流量时的准确率和效率，并使得该识别算法能够适合在真实的网络环境中应用，本文在支持向量机的核函数的参数优化方面、分类结构、增量学习算法以及P2P流量识别模型构建方面所取得的创新性成果有：　　（1）针对支持向量机中核函数中的参数寻优问题，提出了一种基于区间估计的惩罚因子优化法。由于惩罚因子是确定的数据子空间中调节学习机器置信区间范围，本文提出首先使用区间估计法，初步确定一个最优参数区间，之后在此区间内根据置信度和类二分法进行小步距精搜，从而确定惩罚因子C的取值。这样可以大幅度地减少了对惩罚因子C的寻优时间，从而使得基于支持向量机的分类算法在识别网络中的P2P流量时，能够更好地满足实时性的要求。　　（2）针对高斯核函数中的两个参数如何协同寻优的问题，提出了一种基于黄金分割的参数协同寻优法。该方法在第三章提出的惩罚函数C的基础上，为了减少原始学习数据对结果的影响，提出快速高效的寻找最优参数Υ的方法。根据好区中的直线logγ logC log附近的就是最优的参数组合(C,γ)的原则，提出用黄金分割法进行迭代，通过将区间分段，分别求出各段的极大值，并选取多条平行的直线来增加好区中的覆盖广度，从而得到所需的最优参数组合(C,γ)。优化后的分类算法在对P2P流量识别时，提高了准确率和分类时间。　　（3）针对P2P流量中往往有异常数据，当这些异常的样本出现在训练样本中，会使得训练样本集变大，这样分类算法会因为进行重新计算而使得分类效率降低。因此，第五章结合基于支持向量机的增量算法的基本理论，提出了一种改进的有向无环图的分类结构，在建立多分类图的基础上以是否违背KKT条件作为判断依据，对分类器中的训练数据进行迭代处理，使用优化的增量学习方法解决了当训练样本增大时会造成的重新训练问题，使得训练学习过程更为有效。该方法对于P2P流量中应用类型多，流量突变状况多的特点，具有较好的处理效果。　　（4）针对P2P流量的特点，提出适合用于支持向量机进行分类训练的流量特征，并建立一个优化的基于支持向量机的P2P流量识别模型。考虑到网络流量是在线样本数据，其分布一般不稳定，样本数据分布会随着时间变化而变化。因此，在本章中所建立的基于支持向量机的识别模型依据反馈的概念，对于分类结果与实际偏离不大的，予以正面反馈信息，对于分类偏离较大的，予以负面反馈，从而达到整个系统不仅有学习的能力，并在学习的过程中用增量学习方式及时调整和更新规则库，以求达到最好的学习分类效果。　　本文通过对支持向量机的分类算法进行进行深入研究，对其中的关键性算法进行改进和优化，提出了一种基于支持向量机的P2P流量识别模型，并在实验室建立了仿真实验系统，实现了对真实网络中的P2P流量进行识别，并取得了较好的效果。

关键词：对等网络;流量识别;分类算法;支持向量机

授予单位：南京邮电大学

授予学位：博士

学科专业：信息网络

导师姓名：孙知信

学位年度：2015

语种：中文

分类号：TP393.07

页数：111

在线出版日期：2016-11-11（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

基于支持向量机的P2P流量识别关键技术研究