基于关联规则的Web日志数据挖掘算法的研究与应用

郝伟伟

长春理工大学

下载全文

在线阅读

引用

摘要：

Web日志挖掘是数据挖掘研究领域中的一个重要分支，通过对服务器只志文件中的数据进行定量研究和分析后，寻找隐藏在背后的关联关系，从而提高Web用户的个性化服务和质量。　　本文在总结国内外Web日志挖掘的研究现状的基础之上，详细介绍了数据挖掘相关概念和技术，其中更进一步的阐述了Web日志挖掘和关联规则的过程和技术。　　本文以分析用户行为、改进Web站点设计为目标，指出关联规则中的经典算法Apriori用于Web日志挖掘的不足之处，针对Web站点的拓扑结构，系统的分析了Web日志文件中数据的特点，提出基于网站拓扑结构和频繁项集压缩的改进策略，该改进策略的思想是去掉站点繁琐的首页和相对繁琐的次页，并应用关联规则的分类算法CBA去寻找由次页的子页生成的频繁项集所附属的次页，在子页生成的频繁项集中加入首页和附属的次页生成最终的频繁项集。该改进的算法可以减少大量候选项集的产生，节省内存的空间，减少系统在时间上的消耗，整体上提高了效率。最后并附以实例对其进行了对比实验，经详细的分析后，验证了新算法的优越性。

关键词：Web日志;数据挖掘;关联规则;拓扑结构;频繁项集压缩

授予单位：长春理工大学

授予学位：硕士

学科专业：计算机应用技术

导师姓名：崔广才

学位年度：2012

语种：中文

分类号：TP311.13;TP312

页数：46

在线出版日期：2012-12-31（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

基于关联规则的Web日志数据挖掘算法的研究与应用