图聚类的融合学习研究

周波

广西师范大学

下载全文

在线阅读

引用

摘要：

在处理来源广泛、类型众多、结构复杂、规模巨大的海量数据时，如何高效地提取数据内在结构信息并对样本进行有效的簇类标识是数据科学专家们需要关注的问题。聚类方法是一种无监督学习的重要方法，能够有效地处理大数据标注稀缺性的问题；并且图聚类方法在处理数据的复杂、多源、异构、低质等问题时，具有更大的灵活性和适应性。因此，在针对复杂多源的数据处理过程中，图聚类方法已成为了其中一种重要的数据分析手段。然而，现有的图聚类方法还存在许多缺陷和不足，如对噪声鲁棒性弱、初始图质量低劣、对数据的非线性关系获取不充分、对多源数据的互补信息挖掘能力缺乏、多步学习策略易形成累计偏差等。因此，如何构建适应性强、泛化性优、稳定性高的数据图是图聚类建模过程中非常关键的问题。本文围绕着以融合学习为手段在图表示学习中的应用展开研究，致力于提出矫健且稳定的图聚类方法来克服现有方法所存在的缺陷及不足，以此提高整个模型的聚类性能。本文的主要工作和贡献如下：　　（1）针对噪声鲁棒性差、初始图质量低等问题，本文提出了基于双静态图融合的自适应动态图聚类方法。由于传统的构建数据图方法往往会导致初始图质量低下，从而导致最终聚类效果的不稳定和不确定。本文通过利用融合学习在一个稀疏的静态图和一个较稠密的静态图之间自适应地学习到一个稀疏度适合的动态图。该方法将双静态图融合项和秩约束项技巧性地组合在一个联合优化框架中，使得该方法能够从多个初始化的静态图中自适应地学习到具有确定连通分量限制的动态图。同时，在模型优化的整个过程中，该动态图一直保持着适于聚类需求的连通结构并以此实现一步聚类，避免了多步学习的累计偏差问题。　　（2）针对数据的非线性关系获取不充分、图表示的泛化能力不足等问题，本文提出了基于最小-最大优化策略的自表示图聚类方法。由于大多数现实数据都具有非线性特征关系，传统的简单静态图未必能够捕获到所有内在结构，尤其是难以获悉样本之间的非线性结构。本文提出了一种博弈化的最小-最大优化策略来有效地融合学习多个候选基核，并以此获取到一个能更全面性描述数据多重结构特性的共识核，从而有效地处理了传统图聚类方法中的非线性表示问题。然后，再在共识核特征空间中学习到一个对样本结构表示更全面的自表示图。该方法将多核组合优化、自表示图学习以及对样本集的簇类划分等子任务融入到协同优化的统一框架下。　　（3）针对多源数据的互补信息挖掘能力缺乏等问题，本文提出了基于对比反馈优化的多源数据图融合聚类方法。由于复杂多样的数据普遍存在着低质、异构等问题，这无疑增加了对多源数据进行无缝融合的困难度，也使得传统模型在学习过程中更容易出现不稳定和难收敛的现象。本文首先通过在优选的核空间中构建局部近邻图将原始数据的异构特征转化为高阶的同质特征表示，屏除多源数据之间类型和构型上的差异，以此来处理数据的来源庞杂、构型不同等问题。然后，再利用互信息对比反馈策略不断地利用多源数据间的一致性的信息来迭代地优化各信源的核图，以此来提升融合了多源数据互补信息的动态近邻图质量，最终达到提升聚类效果的目的。　　本文旨在针对现有的图聚类模型存在的不足进行改进，设计出稳定且有效的图表示，并将其应用到基于图表示学习的聚类方法中。为此，我们将融合学习架构与图聚类模型相结合，逐步引入多核学习、博弈化学习、反馈学习等方法，从而不断更新、发现和挖掘出样本分布的潜在特征，并以此获取到优化后的图结构，完成对样本数据的聚类应用。

关键词：图聚类;融合学习;动态图;多源数据;多核学习

授予单位：广西师范大学

授予学位：博士

学科专业：软件工程

导师姓名：朱晓峰

学位年度：2023

语种：中文

分类号：TP393.09

在线出版日期：2023-08-23（万方平台首次上网日期，不代表论文的发表时间）

个人中心

退出

学位专题

图聚类的融合学习研究