学位专题

目录>
<

基于支持向量数据描述的异常检测与核特征提取方法研究

王昆哲
国防科学技术大学
引用
异常检测旨在准确地区分目标类(或正类)样本与来自非目标类(或负类)的异常样本。通常假定只有目标类的训练样本是可获得的,而缺少具有统计代表性的异常样本(如故障诊断中,难以获取机器在所有异常运行状态下的测量数据)。作为一种新的单类分类器,支持向量数据描述(Support Vector Data Description, SVDD)通过最小体积超球来模拟目标数据的边界。类似支持向量机,该边界只由少数训练样本(即支持向量)决定;通过将一般的内积用核函数取代,可以得到更灵活的数据描述。鉴于SVDD只模拟数据的边界,其对目标类的采样质量依赖较低。在目标类密度分布未知的情况下,SVDD仍可准确估计其在特征空间中的分布区域。尽管SVDD已广泛应用于异常检测,然而传统SVDD可能不能得到目标描述的最优解。其中一个主要问题即敏感于训练样本中的奇异样本;再则球形描述相对保守,尤其在应用多项式核函数的情况下。以上问题均影响SVDD异常检测的性能。  核特征提取旨在去除数据中的高阶相关性,以实现对复杂数据集的降维,并揭示数据中隐含的简单结构。作为核方法的另一成功应用,核主分量分析(Kernel Principal Component Analysis, KPCA)将数据非线性地嵌入到高维特征空间中,通过不同的核函数可有效地探索数据的高阶特征。与其它非线性特征提取技术相比,KPCA的优势在于它只需求解一个特征值问题,不涉及任何非线性优化。从另一角度看,作为一种完全非参数化的方法,亦不利于传统算法的改进。实际应用中,KPCA有两个主要不足之处。其一,缺乏稀疏性与实现一个含有丰富信息的简明表示的初衷相悖,同时也导致了运算与存储问题。再则,缺乏稳健性,计算得到的特征向量将受异常样本的严重影响而向其倾斜。  在国家自然科学基金项目的资助下,本论文立足于支持向量数据描述,旨在解决前述异常检测及核特征提取中存在的问题。首先介绍了异常检测及核特征提取的背景,并概述了SVDD的研究现状,随后介绍了本论文的主要工作。  第二章介绍了支持向量数据描述的基本理论,讨论了核函数的选择问题。针对特征空间中数据在各特征方向上分布不均匀的问题,给出了一种适用于SVDD的数据白化预处理方法。此外,我们阐明了SVDD与单类支持向量机的等价关系,并探讨了利用正样本上的错误估计来确定模型中自由参数的可能性。  第三章探讨了SVDD的稳健性问题。传统SVDD对受污染的数据(如目标类数据中包含异常样本或标记错误的样本)将得到不可靠的描述边界。在SVDD训练过程中给每个样本赋予不同的权值,可以降低其对奇异样本的敏感性。通过比较几种不同的权重计算方案,给出了一种基于Stahel-Donoho(SD)奇异性加权的SVDD,并推导了特征空间中SD奇异性的计算方法。最后,针对多元数据异常检测的可视化问题,给出了一种用于SVDD的诊断图,以帮助SVDD使用者对其模型进行评估。  第四章提出了一种新的数据描述方法—椭球数据描述(Ellipsoidal Data Description,ELPDD)。由于SVDD只通过球心和半径定义数据分布,对一般输入维数具有相关性的多元数据得到的描述边界可能不够紧致。通过在特征空间中构造包含目标类样本的最小体积闭椭球,可以考虑到数据各特征的方差及特征间的协方差,从而更好地刻画非均匀的数据分布。针对异常检测,我们给出了相应的判决函数,并详细讨论了其模型选择问题。最后,分析了算法的稳定性,推导了异常检测的风险边界。  第五章研究了核主分量分析的稀疏性与稳健性。受支持向量机解的稀疏特性启发,我们探索了如何将SVM的这一特性引入KPCA中。PCA的几何解释,即估计数据的最佳拟合椭球,为我们提供了一种将KPCA参数化的方法。而相应的最优椭球即属一种SVM的变种,亦即第四章提出的椭球数据描述。由此,每一主分量展开式具备了稀疏性,即只有作为支持向量的样本所对应的系数非零。针对KPCA的稳健性,我们提出了通过计算一种稳健的距离,以鉴别出未被污染的样本子集,从而使随后的算法尽量避免奇异样本的影响。此外,我们给出了一种基于KPCA的异常图,以显示并对异常样本进行分类。  以上研究进一步完善了基于支持向量的数据描述方法及理论,并探讨了其在异常检测及核特征提取中的应用。特别是椭球数据描述,对数据挖掘、稳健统计学等其它领域具有重要意义。

支持向量数据描述;异常检测;最小体积闭椭球;核特征提取;可视化工具

国防科学技术大学

博士

信息与通信工程

肖怀铁

2018

中文

TN957

2020-04-22(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅