基于K--Means--CNN的采砂大数据清洗算法研究

张静

华北水利水电大学

下载全文

在线阅读

引用

摘要：

数据质量是进行数据挖掘的关键问题，高质量的数据带来的信息准确、全面，有助于人们做出正确的判断及决策，因此，做好数据清洗，提高数据质量是非常重要的。目前，已有学者提出许多数据清洗方法，它们解决了大部分领域的数据清洗问题，但是这些数据清洗方法在对缺失值、异常值、重复值的处理上还存在很多不足之处，主要表现在算法自身存在缺陷及数据问题分类不精确方面。而且，在河道采砂方面，目前还没有有效的数据清洗方法。　　河道采砂活动日益频繁，在采砂过程中，会产生各种与采砂密切相关的数据，这些数据包含：业务数据、设备数据、传感器数据、人工数据等，其中，传感器采集的河道信息数据对分析采砂业务有很大帮助，而一些备份、残缺数据等属于冗余、垃圾数据，在对数据进行分析应用时，会出现决策误导问题，因此，对这些数据进行清洗可以充分分析挖掘数据，引导人们做出正确决策。　　大数据、深度学习等技术已经成了数据处理的主流方向。其中，河道采砂关乎大众民生，解决采砂问题迫在眉睫。本文对已有的数据清洗方法加以改进，提出了基于聚类及卷积神经网络的采砂大数据清洗方法。本文所做主要工作如下：　　第一，研究数据源，对河道采砂数据加以了解，研究其源数据存在的主要质量问题，根据数据源质量问题，进行具体的算法模型及结构设计，以及优化，保证可以对数据进行准确分类。　　第二，对大数据集如何进行分类进行研究。利用最小二乘法的K-Means聚类算法对含砂量数据集进行聚类处理，利用最小二乘法设定阈值，减小异常点对聚类效果的影响。然后将聚类后的数据集作为卷积神经网络的训练样本，进行模拟训练，得到网络模型，并对模型进行不断优化和调优，得到最佳训练效果。　　第三，在调好的数据清洗模型中输入实验数据，经过模型分类后，将输出结果与输入的实验数据作对比，计算其中的误差，不在误差范围内的可视为异常，再进行修正处理。　　第四，对实验结果进行比较和分析，通过模型在河道智慧采砂监管平台的应用，结果表明，K-Means聚类与卷积神经网络相结合的数据清洗算法能有效的对采砂大数据进行清洗，提高了采砂数据质量，对采砂工作提出有效建议。

关键词：采砂大数据;K-Means聚类;CNN;数据清洗

授予单位：华北水利水电大学

授予学位：硕士

学科专业：计算机应用技术

导师姓名：陆桂明

学位年度：2020

语种：中文

分类号：TP311.13

在线出版日期：2020-12-14（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

基于K--Means--CNN的采砂大数据清洗算法研究