学位专题

<

不确定数据和代价敏感学习研究

张星
西北农林科技大学
引用
传统的数据分类算法需要处理的数据是确定且精确的,然而在现实世界中,由于隐私保护,不精确测量,重复抽样,值缺失等原因,数据普遍存在不确定性。直接使用传统分类算法对不确定数据进行分类效果很差,不能满足应用要求,这使得专门针对不确定数据挖掘技术的研究十分必要。  代价敏感学习是一个具有重要意义的研究方向,其充分考虑了各类错误分类的代价差异,通过引入代价概念,使得分类器以最小化代价为目标,有效避免了传统分类器仅关注分类准确率的不足。在很多领域,代价敏感学习模型更符合现实应用需求。  本课题以不确定数据和代价敏感学习为研究对象,围绕着如何对不确定数据流进行分类分析,如何提出性能更优的代价敏感算法以及如何对不确定数据进行代价敏感学习等几方面展开研究。主要成果包括:  (1)提出了一种针对属性不确定的数据流进行分类学习的集成分类算法EDTU。首先,文中基于不确定决策树算法DTU构建了基分类器。然后,为解决基分类器算法效率不高,不能实时的处理数据流的问题,采用了快速构建决策树的方法来改造基分类器。最后,通过动态集成的方式,构建了一个分类器集合,通过在相似样本上的分类准确率来调整分类器权重,并完成分类器的淘汰与更新。实验结果表明,算法能有效的处理不确定数据流的分类问题,并且在不同参数下表现稳定。  (2)提出了一种结合贝叶斯和决策树来进行代价敏感学习的算法CS-NBT。首先,文中定义了误分类代价期望,设计了最小化误分类代价期望的属性选择策略,并根据该策略构建了以最小化误分类代价期望为目的的决策树。然后,在所构建决策树的每个叶子节点上学习贝叶斯分类器,通过结合类别概率与代价矩阵,将选择类别概率最大的问题转换为选择类别代价最小的问题,从而使叶子节点中的贝叶斯分类器代价敏感化。相比起现有基于决策树或贝叶斯的代价敏感学习算法,CS-NBT结合了决策树和贝叶斯的优点,利用了代价敏感决策树的结构能够有效的分裂数据,同时,也通过叶子节点处的贝叶斯分类器利用了那些没有出现在树的路径上的属性所携带的信息。实验结果表明,CS-NBT算法展现了优秀的性能,与CSTree、MetaCost和NBT相比,CS-NBT性能稳定,有效的降低了总代价,并且在不同的参数设定下,算法表现良好。  (3)提出了弱化贝叶斯假设的代价敏感学习算法CS_ANDE。首先,结合贝叶斯定理和代价矩阵定义了代价期望,将分类中的最大化可能类别问题转化为最小化期望代价问题。其次,通过假设某些特殊属性不独立,而其它属性相互独立,形成了一个较弱的条件独立假设。然后为减少特定的特殊属性带来的偶然性,将属性集中的每个属性都选取为一次特殊属性并求这些值的均值。最后通过使用MetaCost框架,学习对应的代价敏感分类器。CS AODE与CS A2DE的不同在于,在CS_AODE只假设一个属性是特殊属性,而在CS_A2DE中则假设两个属性是特殊属性。实验结果表明CS AODE和CS_ A2DE算法在处理代价敏感学习时展现了优秀的性能,有效的降低了代价,并且在不同参数设定下,算法表现良好。  (4)提出了基于决策树的代价敏感不确定分类算法CS-DTU。首先,基于概率势的概念定义了代价增益,通过代价增益来表示属性分裂前后代价的改变。其次,设计了使总代价最小化的属性选择方式,并以该方式建立了代价敏感决策树。然后,采用了不确定决策树中的分类方法来分类新样本。实验结果表明,CS-DTU算法能有效的处理不确定数据的代价敏感分类问题,并且在不确定率变化和代价矩阵变化时表现稳定。  (5)提出了基于贝叶斯的代价敏感不确定分类算法CS-UNB。首先,通过结合类别概率与代价矩阵,定义误分类代价期望。然后通过选择不同属性进行测试导致的误分类代价期望的变化,依次选择需要进行测试的属性,其中,不确定信息使用概率势的方法进行处理,最后给出相应算法的详细步骤。然后,对CS-UNB进行扩展,提出了相应的单批测算法SBT-CSUNB。采用贪心算法的思想,找出所有对总代价下降正相关的属性,作为需要进行测试的属性集合。实验结果表明,CS-UNB算法和SBT-CSUNB算法都很强的从不确定数据学习代价敏感分类器的能力,在不确定率和代价矩阵变化时,算法都表现良好,且SBT-CSUNB算法展现了更好的稳定性。

不确定数据;代价敏感学习;分类算法;贝叶斯;决策树

西北农林科技大学

博士

农业电气化与自动化

张阳

2017

中文

TP311.13

120

2017-08-17(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅