基于混合遗传算法的分类规则挖掘方法及其并行实现

张磊

重庆大学

下载全文

在线阅读

引用

摘要：

数据分类是按照一组数据对象的特征给出数据对象数学划分的过程，已经在统计学、机器学习、神经网络以及专家系统中被广泛研究。近来，它又成为数据挖掘的一个重要研究方面。实际上，分类是一个两步过程，第一步，建立一个模型，描述指定的数据类集或概念集；第二步，评估模型的预测准确率，如果模型的准确率可以接受，使用模型进行分类。通常，模型可以用分类规则、判定树或数学公式表示。目前常用的分类规则挖掘方法有遗传算法、决策树方法、神经网络等。基于传统遗传算法的分类规则挖掘方法通常存在以下问题：(1)对每个类只能产生一条分类规则；(2)挖掘出的规则质量不高；(3)优化后种群中冗余规则太多；(4)分类准确率不高。本文提出的基于混合遗传算法的分类规则挖掘方法能够有效克服上述缺点，提高分类规则挖掘的准确性。本文首先介绍了数据挖掘的产生背景、定义和功能，指出预测准确度、计算复杂度和模型描述的简洁度是评价分类模型的三个尺度，并对一些常用的分类规则挖掘方法进行了分析和比较。介绍了遗传算法和局部搜索算法的基本原理，并分析了遗传算法和局部搜索算法的优缺点。遗传算法虽然具有很强的全局搜索能力但局部搜索能力较差，另一方面，局部搜索算法具有较强的局部搜索能力，因此可以将两种算法相结合，构成混合遗传算法。分析了分类规则挖掘原理，指出标准遗传算法并不太适合分类问题，因此提出了一种基于混合遗传算法的分类规则挖掘方法。混合遗传算法采用了Michigan方法，每个染色体代表一条分类规则。为了使混合遗传算法能够产生多条高质量的规则，设计了针对分类问题的编码方案、适应度函数、个体生成函数、遗传算子和局部搜索算子，并在适应度函数中提出了简洁度因子。另外，在优化后的种群中存在一些冗余规则，考虑到规则集的简洁性，提出了一种规则提取方法。实验表明，基于混合遗传算法的分类规则挖掘方法能够从数据集中发现一个简洁、准确、易理解的规则集。最后，分析了分类算法的并行性，并在基于Windows2000的PVM并行计算平台上实现了并行分类算法。此算法采用粗粒度的主/从模型，特别适合在PC机群上运行。实验表明，所设计的并行分类算法具有良好的加速比。

关键词：数据挖掘;遗传算法;局部搜索;混合遗传算法;分类规则

授予单位：重庆大学

授予学位：硕士

学科专业：计算机系统结构

导师姓名：熊忠阳

学位年度：2004

语种：中文

分类号：TP301.6;TP311.13;TP18

页数：52

在线出版日期：2006-07-27（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

基于混合遗传算法的分类规则挖掘方法及其并行实现