垂直数据格式挖掘频繁项集在Web日志挖掘中应用研究
关联规则是发现一个事物与其他事物间的互相关联性,主要是从事务集合中挖掘出不小于最低支持度和置信度阈值要求的全部关联规则。针对现有的基于垂直数据格式算法挖掘频繁项集时采用正交的方式消耗大量时间和浪费大量存储空间的问题,而提出一种基于差集和哈希函数的垂直数据格式挖掘频繁项集的改进算法,该算法用差集取代了项集间的求交运算和节省了大量的存储空间,使用哈希函数对存储数据的快速访问,并且相对于水平数据格式挖掘频繁项集的算法减少了对数据库的多次访问和缩减了事务数,并通过实验比较得出改进后的算法在运行效率上有明显的提升。 将改进的挖掘频繁项集算法应用到Web日志挖掘中,根据设定的支持度和置信度阈值挖掘出用户的频繁访问路径和页面之间的关联性,可以为网站管理员改善网页优化与网站拓扑提供支持与决策。
Web日志;数据挖掘;关联规则;垂直数据格式;频繁项集
辽宁工程技术大学
硕士
软件工程
邢长征
2017
中文
TP393.092;TP311.13
63
2019-03-27(万方平台首次上网日期,不代表论文的发表时间)