基于协同训练的虚拟样本生成技术应用研究

张洪涛

北京化工大学

下载全文

在线阅读

引用

摘要：

随着工业化发展的需要，过程工业的生产规模越来越大，复杂度也越来越高。同时在很多新颖技术投入生产初期，受所能搜集到的样本量较少、样本分布不均、代表性差等因素限制，很难建立精准高效的数据驱动软测量模型来预测工程工业中难以预测的变量。为进一步开发软测量模型的应用，基于原始样本分布生成新样本来扩展样本集，是解决该问题的理想方法。　　本文提出了一种新颖的基于半监督的协同训练思想的虚拟样本生成技术。传统的虚拟样本生成方法生成的样本存在分布性差且样本质量差距较大的问题。对此，本文通过协同训练的思想来产生并筛选质量优秀的样本。首先，通过在小样本集特征空间上识别每维度上的稀疏区域，并进行插值操作，生成虚拟样本的输入特征，同时利用最近邻算法(K-nearest neighbor,KNN)作为回归器来完成回归任务,预测虚拟样本的虚拟输出，一边筛选合格的虚拟样本，一边利用这些样本更新模型，以提高双KNN模型对虚拟样本输出属性的预测准确性。为验证本文提出的方法的有效性和优越性，本文利用了两个标准函数和一个工业数据集进行了实验。实验结果表明:该方法提升了样本的数量与质量，改善了软测量模型的性能，且模型的预测精度获得了较大的提升。而对比其他几种方法，本文提出的CTVSG优于其他几种常见的虚拟样本生成方法。　　此外，对于大部分小样本问题中存在的由于样本数量极少而导致的样本覆盖性较差的问题，本文在CTVSG的基础上，提出了基于MTD和协同训练的MTD-CTVSG。首先，利用MTD技术在原始样本空间基础上实现样本分布空间的扩展，然后在扩展后的样本空间中筛选稀疏空间产生无标签虚拟样本;最后利用协同训练模型得到目标虚拟样本。本文通过三维标准函数和工业数据集来验证了方法的有效性。对比几种先进的虚拟样本生成方法,实验结果证明MTD-CTVSG生成的虚拟样本与真实样本分布较为拟合，且提供了相对于原始样本更多的分布信息，具有较大的性能优势。

关键词：数据集;虚拟样本生成;协同训练;软测量模型;最近邻算法

授予单位：北京化工大学

授予学位：硕士

学科专业：计算机技术

导师姓名：朱群雄;顾祥柏

学位年度：2023

语种：中文

分类号：TP311.13

在线出版日期：2023-09-27（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

基于协同训练的虚拟样本生成技术应用研究