基于关联规则的股票数据挖掘算法研究

王梦迪

安庆师范大学

下载全文

在线阅读

引用

摘要：

作为数据分析和处理的重要工具，知识发现（KDD）与数据挖掘技术的相关研究成果已广泛地应用在金融、医疗保健、零售等相关统计行业，其中，关联规则挖掘在金融统计、股票预测方面应用更为广泛，但非经典关联规则挖掘面临着所谓的“高阶逻辑”问题，因此本文从以下方面开展了相关研究：　　首先，面对的对象在数量级上有本质区别。经典的购物篮挖掘数据量与股票挖掘数据量有本质上区别。前者可用一个常数n来表示，而后者则只能用一个无穷符号∞来表达。对股价描述，特别是对一些基于（标的股票）价格之上的衍生资产，直接套用泛Apriori算法是不合适的。　　其次，面临的时间、空间复杂度瓶颈问题更加严峻。股票具有很强的随机性、不确定性和模糊性。以往经典的关联规则挖掘算法不能较好地表达挖掘对象中模糊信息之间的关联性。事实也证明，当数据量较小时，用模糊关联规则算法处理股票数据是非常有效的办法。但面对大数据量或超大数据量却存在时间、空间复杂度等瓶颈问题。　　最后，会面临信号衰竭甚至失踪问题。当以基于事务的观点应用滑动窗口技术将股票原始事务数据库D转化为扩展事务数据库De时会大量出现支持度明显很低甚至小到都可不予考虑，然而置信度却相对较高的有趣问题。如果一味用传统的挖掘算法会很难处理这些有趣的关联规则。　　针对以上问题，本文证明了在对股票及其衍生品种的海量数据挖掘及算法设计中大数定律和中心极限定理依然是处理海量数据必不可少的理论基础。其次，当面对大数据量或超大数据量时，时间、空间复杂度瓶颈问题会更严峻，并还伴随兴趣度不够或（有趣的）关联规则因难以发现而被遗漏等问题。对此我们采用向量、矩阵和降维等方法进行相关处理。但问题是股票数据矩阵往往特别大等原因以至内存难以承受，有没有一个理论办法在与高维数据打交道时能避开维数过高所带来的困难，依数据间的相依性设法把维数降低，而又不丢失原始数据中的过多信息以便数据处理知识提取呢？在相似关联规则挖掘算法中本文对这个问题给出较完备的数学证明。即只要降维就会出现出错率，但一定有办法在误差可控的情况下去逼近真值。　　相似度的给出是本文算法设计的关键之处。相似度极好地近似了置信度概念。为了进一步提高算法效率我们对相似度还给出了一个好的估计S*(ci,cj)。进一步的我们还证明了S*(ci,cj)在项集间同样具有反单调性，故完全可借鉴Apriori算法来发现满足相似度门槛值s的多个扩展项集。这样就保证了如果要在相似项集间进行模式匹配是能具有数学完备性的。把交易数据库转化为0-1矩阵形式，然后进行最小哈希变换和多次矩阵转换来简化和抽取具有相似特征的矩阵，接着进行有特殊意义的矩阵转换，该转换仍然建立在相似度量基础上，不仅可以加快频繁k项目集的验证速度，还能大量减少所需的I/O次数，减小了存储空间。最后，对出现相似关系情况的数目进行支持度计数，用支持度度量来代替相似度的衡量，此时得到的挖掘矩阵容量要远小于原始矩阵M。基于此再通过关联图关联规则挖掘来推导出所要寻找的事务间关联规则。事实证明这样做可使算法挖掘关联规则的效率更高信息更准。

关键词：股票市场;数据挖掘;关联规则;滑动窗口

授予单位：安庆师范大学

授予学位：硕士

学科专业：统计学

导师姓名：程玉胜

学位年度：2016

语种：中文

分类号：F832.51;TP311.13

页数：84

在线出版日期：2017-07-26（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

基于关联规则的股票数据挖掘算法研究