学位专题

目录>
<

基于CGAN的虚拟样本生成技术应用研究

侯坤睿
北京化工大学
引用
数智化的时代背景下,数据驱动建模的研究与应用如日方升。但由于数据采集成本高、数据重复、波动小等原因,使得具有代表性的、可用于研究与应用的样本不足问题时有发生。并且,训练数据不足、数据质量差常使数据驱动模型的泛化、预测能力不足。因此,样本不足成为了数据驱动建模中迫待解决的问题。虚拟样本生成方法是解决样本不足问题的有效手段,有着极为重要的研究意义与实用价值。  本文提出了一种基于CGAN的逆向虚拟样本生成技术。传统的虚拟样本生成方法存在产生的虚拟样本均匀性差、覆盖程度不佳、分布性难以保证的问题。对此,本文首先集成LOF和K-Means++算法生成较为均匀的新样本,再通过CGAN合成与新样本对应的虚拟输入。接着,本文采用两个基准函数验证所提方法的有效性,通过KL、JS散度和可视化近似密度分布来评估虚拟样本与真实样本的接近程度。最后将该方法应用于实际工业数据集,实验结果表明:该方法提升了数据集的数量与质量,增强了数据驱动软测量模型的性能。  为了进一步提升样本生成质量,本文基于CGAN可以产生经典回归或逆向回归预测的特点,提出基于CGAN的正向虚拟样本生成方法。首先,采用LOF算法识别数据离群点,再对离群点各维度投影,在每维的离群点投影值间进行迭代中间插值生成更为均匀的新样本。然后,通过CGAN的隐式模型生成输出子样,取每组子样的中值作为新样本对应的输出。最后,使用标准函数验证了该方法的有效性,并将其应用于实际工业数据集。实验结果表明:模型的预测精度获得了明显提升,且该方法优于其他几种先进的虚拟样本生成方法。

虚拟样本生成;数据驱动;CGAN;LOF算法

北京化工大学

硕士

计算机技术

朱群雄;顾祥柏

2022

中文

TP311.13

2022-11-04(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅