代价敏感学习中属性约简与决策树分类若干关键问题研究

徐子龙

闽南师范大学

下载全文

在线阅读

引用

摘要：

数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性信息的过程。数据挖掘又译为资料探勘、数据采矿，是数据库知识发现中的一个步骤。数据挖掘与统计学、机器学习与数据库等理论与技术交叉渗透，有着深刻的研究意义和广泛的研究价值。　　代价是数据的重要方面。实际应用中常见的代价有测试代价、误分类代价、计算代价和延迟代价等。测试属性需要付出一定代价，我们称之为测试代价。这些代价包括金钱、时间和其它各种资源。当我们对实例做出错误分类的时候，同样也需要付出代价。例如，当医院诊断病人时，如果把有病诊断成健康，这种情况下可能都会付出代价，我们称之为误分类代价。等待而没有做有意义的事情所浪费的时间，我们称为延迟代价。正因为代价在现实中的重要意义，代价敏感学习正在成为数据挖掘中的热点课题。　　粗糙集理论是数据挖掘的一个重要工具，它在处理不确定数据和不完备信息系统方面具有很大的优势。代价是数据的重要方面，衡量了数据的外部特征。决策粗糙集理论所研究的代价主要是误分类代价。数据的获得需要付出测试代价，因此在粗糙集理论模型中考虑测试代价是现实意义的。这就需要一个能够考虑测试代价和误分类代价两种代价的代价敏感粗糙集模型。建立代价敏感粗糙集模型，并基于此模型研发高性能算法，可以为实际应用中的问题提供一套低代价、低风险的数据挖掘解决方案。　　在最近的代价敏感粗糙集研究中，已有研究者提出回溯法求解代价敏感粗糙集的最优约简。回溯法是穷举法的一种，它能够找到最优解。但在大数据集上，回溯法无法在可以容忍的时间内给出结果。因此，有学者提出了启发式算法，主要有信息熵启发式算法和遗传算法。但这些算法的效果并不理想，所以本文就提出基于蚁群优化原理和模拟退火原理的算法来解决代价敏感粗糙集中的属性约简或属性选择问题。　　决策树是数据挖掘和机器学习中一类高效的分类方法。由于代价的重要性，代价敏感决策树的研究成为热点。目前，已有的相关算法处理的都是符号型数据的分类问题。而现实生活中，存在大量的数值型数据，因此，本文基于C4.5算法开发了一套处理数值型数据代价敏感分类问题的决策树算法。　　本文内容主要包含代价敏感粗糙集的属性约简和代价敏感决策树相关问题的研究。　　第一部分详细研究了基于代价敏感粗糙集理论的属性约简问题。首先，我们提出了一个基于蚁群优化的算法和一个基于模拟退火原理的算法来解决最小测试代价属性约简问题。实验结果表明，我们算法的效果明显优于已有的启发式算法。其次，我们开发了一个基于模拟退火原理的算法来解决最小代价属性选择问题。这个最小代价属性选择问题是考虑两类代价的属性选择问题。这两类代价是测试代价和误分类代价。实验结果表明，在大多数情况下，新算法的效果优于已有的算法，但还有提升的空间。我们算法在大数据集上的处理时间令人满意。　　第二部分详细研究了考虑测试代价和误分类代价这两类代价的决策树的分类问题。并且研究了代价敏感决策树的剪枝技术。首先，本文基于C4.5决策树算法提出了一个能够处理代价敏感问题的代价敏感决策树算法。实验表明，我们的代价敏感C4.5可以很好地处理数值型数据的代价敏感分类问题。其次，本文尝试利用竞争方法和后剪枝技术来提高代价敏感决策树的效果。实验结果表明，竞争方法和后剪枝技术能够显著地提高决策树的效果。最后，本文设计了基于概率机制的后剪枝技术来进一步提高代价敏感决策树的质量和分类效果。我们设计了两种概率剪枝技术:静态概率剪枝技术和动态概率剪枝技术。实验结果表明，概率后剪枝技术的效果明显优于无概率后剪枝技术。而动态概率剪枝技术效果尤为明显。动态概率剪枝技术的一个优势是不需要用户的干预。

关键词：代价敏感学习;粗糙集;属性约简;决策树;剪枝技术

授予单位：闽南师范大学

授予学位：硕士

学科专业：计算机应用技术

导师姓名：闵帆

学位年度：2014

语种：中文

分类号：TP311.13;TP312

页数：108

在线出版日期：2014-09-25（万方平台首次上网日期，不代表论文的发表时间）

个人中心

退出

学位专题

代价敏感学习中属性约简与决策树分类若干关键问题研究