基于单源及多源的实例迁移学习研究

张驰

哈尔滨理工大学

下载全文

在线阅读

引用

摘要：

在人工智能和互联网技术高速发展的时代，面对海量且结构复杂的数据，如何对其进行快速高效地处理成为一项非常重要的研究。在实际应用中，训练集与测试集的分布通常不同，训练集的数据量也会存在不足。为了解决这两个问题，迁移学习应运而生。对于数据分布不同，但分布又具有一定相似性的两个领域，迁移学习可以通过使用少量的数据辅助目标领域数据进行训练，从而能将数据有效地进行分类。本文针对基于实例的迁移学习方法，从单源和多源两个角度对算法进行改进，具体内容如下：　　针对源领域数据集中包含冗余数据和基本分类器评价指标存在局限性的问题，本文在单源的实例迁移学习TrAdaBoost算法（Transfer AdaBoost）的基础上，提出了一种基于聚类理论和样本误差的TrAdaBoost算法。首先利用聚类算法对源领域数据集进行筛选，找到与目标领域相似性较低的源领域数据并将其去除，其次采用样本重加权的技术使样本可重新被目标领域使用，最后引入样本自身的分类误差优化基础分类器的评价指标。使用改进算法对SRAA数据集和20Newsgroups数据集分类，实验结果表明，改进算法的分类性能更好，其准确率和F1分数相较于对比算法均有所提高。改进算法减少了源领域与目标领域之间的偏差，从而避免模型发生负迁移，增强了模型的泛化能力。　　针对具有多个源领域的迁移学习，提出一种多源聚类样本误差TrAdaBoost算法。首先合并多个源领域和目标领域的数据，使用聚类算法进行聚类，删除未与目标领域数据处于同一聚类簇的源领域数据，其次对于每个源领域，分别与目标领域组合成训练数据集，训练得到一组弱学习器并将其集成为候选学习器，优化弱学习器和候选分类器的评价指标。实验结果表明，改进算法可有效地将多个源领域的有用知识进行迁移，其准确率和F1分数均高于对比算法。改进算法增加了源领域与目标领域之间的相关性，充分利用源领域中的知识辅助训练目标领域的模型，着重关注与目标领域具有较强相关性的源领域数据，提高了分类器对这些源领域数据的倾向程度，进而提升了分类器的准确率。

关键词：数据处理;迁移学习;TrAdaBoost算法;聚类理论;样本误差

授予单位：哈尔滨理工大学

授予学位：硕士

学科专业：数学

导师姓名：李福祥

学位年度：2022

语种：中文

分类号：TP311.13

在线出版日期：2022-09-21（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

基于单源及多源的实例迁移学习研究