基于支持向量机的数据挖掘及其应用研究

徐寅

南京信息工程大学

下载全文

在线阅读

引用

摘要：

数据挖掘(Data Mining，DM)是指从大量数据中发现隐含在其中并潜在有用的知识的过程。数据挖掘是一个多学科交叉研究领域，涉及数据库技术、统计学、机器学习、人工智能、模式识别、计算智能等，经过十多年的发展，数据挖掘技术已趋于成熟，形式了一套完整的理论体系，并广泛应用于经济和社会生活的各个领域。　　算法是数据挖掘技术的核心，优秀的算法能够显著提高数据挖掘的性能和效果。支持向量机算法是一种基于统计学习理论的机器学习方法，可以有效避免维数过高和过拟合，更适合解决小样本问题。支持向量机在数据挖掘中主要用于分类与时间序列预测，本文针对各自的特点，深入研究支持向量机及其改进算法，以解决实际应用问题，主要包括以下两个方面：　　 (1)在基于机器学习方法的油气藏地球化学勘探研究中，多数方法是通过有监督学习的分类算法进行分类预测。在油田实际应用中，为了获得更好的效果，往往需要大量的已标记样本用于分类器的学习，因此在样本的搜集和标注上会耗费一定的人力和时间。针对支持向量机算法的特点，本文研究基于后验概率的主动学习支持向量机多类分类算法，通过主动选择有利于提升分类器性能的样本，使得在减少训练样本数量的情况下保证分类器的精度。以山东胜利油田花沟地区的化探资料为实例，实验表明基于主动学习的支持向量机算法在训练样本数较少的情况下便可获得更高的分类准确率，证实了该算法的优越性。　　 (2)在对气候时间序列进行的短期气候预测中，根据气候序列具有的非线性、非平稳特性，利用支持向量机算法在处理非线性问题中的优越性和经验模态分解算法在处理非平稳信号中的优势，采用将经验模态分解与支持向量机相结合的短期气候预测方法，并应用到广西季节降水预报中。选取广西全区88个气象观测站1957-2005年6-8月逐年降水量的距平百分率序列作为实验数据，并采用不经过经验模态分解处理的RBF神经网络和支持向量机回归算法进行对比验证，结果表明相对于直接预测方法，本文提出的方法具有更高的预测精度和较好的推广能力。

关键词：数据挖掘;机器学习;支持向量机;人工神经网络;经验模态分解算法

授予单位：南京信息工程大学

授予学位：硕士

学科专业：系统分析与集成

导师姓名：傅德胜;毕硕本

学位年度：2010

语种：中文

分类号：TP181;TP311.13

页数：73

在线出版日期：2010-10-29（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

基于支持向量机的数据挖掘及其应用研究