学位专题

目录>
<
DOI:10.7666/d.Y3001054

基于模糊C均值算法的数据流概念漂移检测和更新机制研究

秦姗
天津师范大学
引用
随着数据时代的到来,带有概念漂移的数据流聚类问题已经逐渐成为了数据挖掘领域的一个研究热点。实际应用领域如智能电网配电研究,信用卡欺诈分析、网络病毒入侵检测、消费者购物倾向分析等都涉及到概念漂移检测的问题。数据流挖掘模型要求算法快速、及时对数据进行处理分析,同时适应、处理数据流中出现新的概念。本文针对发生概念漂移的数据流的特点,提出一种基于概念漂移检测与系统更新的数据流聚类模型,对数据流聚类模型处理概念漂移和模型更新的问题进行研究分析。在研究分析中主要进行以下工作:  (1)基于模糊C均值聚类算法与熵理论的概念漂移检测算法。该算法以模糊C均值聚类为基础,对数据流进行模糊聚类处理,利用模糊理论中隶属度的概念,得到数据流的信息熵,使用信息熵检测数据流是否发生概念漂移。  (2)基于相关系数与信息熵的累积式的数据流系统更新机制算法。数据流发生概念漂移,原模型系统的正确率会降低,需要及时对模型进行更新处理,但是,过度频繁的更新同样会造成系统性能下降甚至瘫痪。针对这一问题,本文提出了累积式的模型更新机制。对于微小的概念漂移进行积累,累积数据块的相关系数方差大于阈值时再进行更新。  (3)基于分类器池的概念漂移检测机制。对已出现过的概念模式,使用分类器池机制对其进行存储,进一步完善了聚类模型的概念漂移检测功能,并增强了系统抗概念漂移的能力。实验选取了数据的分布轮廓与中心点两个属性构成分类器池中的类别模式,并验证了聚类模型的有效性。  本文针对数据流的动态变化性,提出了基于模糊理论与熵理论的数据流概念漂移检测的算法以及基于相关系数的累积式的数据流聚类模型更新机制,并且引入分类器池的概念进一步完善模型的概念漂移检测功能,建立了既能及时检测数据流概念漂移又能避免过适应更新的聚类模型,并利用该模型对有概念漂移的仿真数据和真实数据进行测试,本文提出的方法检测出了概念漂移并对模型做出了更新判断。

数据流;概念漂移;模糊C均值;电网配电;数据挖掘;聚类算法;模糊聚类

天津师范大学

硕士

电路与系统

张宝菊

2016

中文

TM728.1

48

2016-08-31(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅