改进K-means算法对大兴安岭蓝莓干销售预测的应用

刘璐

东北林业大学

下载全文

在线阅读

引用

摘要：

在当今信息时代，每时每刻产生于商业领域的销售数据都以爆炸式的方式增长，人们更关心的是如何从庞大数据量中汲取对未来销售有指导意义的信息，避免“菜贱伤农，菜贵伤民”的尴尬局面，所以对销售数据进行数据挖掘并预测成为了新的挑战。要想突破这一瓶颈，数据挖掘的聚类技术和预测模型为研究人员提供了解决方案。传统K-means算法在解决聚类问题上应用广泛，以其聚集程度高、操作性强的特点在数据挖掘的聚类分析中具有明显优势。然而传统K-means算法由于缺乏对噪音点的判定，以及算法本身对孤立点过于敏感等缺陷，又使得在某些问题上受到局限。正如本文研究的预测销售量的问题，如果在数据梳理阶段没有将其高度聚类、没有充分体现分组后的数据特性，那么势必会影响最终预测的结果，造成误差范围外的偏差。为保证预测的准确，必须要确保数据样本集的精细处理。本文从算法改进研究和应用两方面，提出基于DBSCAN算法思想去噪的改进K-means算法，并将其应用在对大兴安岭当地五家公司的2005-2014年销售量的数据挖掘过程中，形成高度聚集的样本集，最后利用样本集数据作为预测模型的原始数据，预测销售量。　　本研究主要内容包括：⑴改进K-means算法，优化去噪过程。不再像传统K-means算法凭借人为经验和预先构想剔除噪音点。结合DBSCAN算法对噪音点判定的方法，对原始数据进行降噪处理，提高预处理数据的精细程度。⑵数据聚类。按销售量高、中、低三个层次对去除噪音点之后得到的数据集进行聚类处理。并将改进算法和未改进算法的聚类结果进行对比，分析聚类结果。⑶预测销售量。利用ARIMA预测模型对通过改进算法得到的聚类样本集进行预测，同时用同样的预测模型对未改进算法得到的聚类结果预测。分别将两种预测结果和当年实际销售量做比对，证明改进算法的可行性和优越性。⑷预测价格。根据2005年-2014年大兴安岭蓝莓干市场价格，用四种模型分别拟合，选择最贴近实际情况的走势，并对未来价格走势做出分析。

关键词：信息检索;数据挖掘;程序语言;聚类算法;销售预测

授予单位：东北林业大学

授予学位：硕士

学科专业：软件工程

导师姓名：罗嗣卿

学位年度：2017

语种：中文

分类号：TP311.13

页数：60

在线出版日期：2018-11-15（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

改进K-means算法对大兴安岭蓝莓干销售预测的应用