基于网络用户行为分析的用户推荐反馈系统的设计

石钊

北京化工大学

下载全文

在线阅读

引用

摘要：

当今社会，IT和互联网技术的蓬勃发展给人们带来了无限机遇和财富，但与此同时，其每时每刻也都在产生着数以亿万计的数据量。如果没有一个好的办法发掘出其中潜在的信息，就无法为用户提供更加优质的服务。从海量数据中提取特定网络用户与互联网的交互行为数据并进行分析和研究就是一个比较好的办法，也是学习和发掘用户兴趣和需求的有效手段;推荐系统是按照特定用户的兴趣和需求，以互联网为平台为他们提供“个性化”服务的系统。本文所做研究包括:　　(1)研究了基于内容的推荐系统。本文首先对.Pcap文件和数据包的结构进行了研究;之后通过对HTTP和TCP协议通信原理的研究，提取到了网页文本的URL等关键数据;然后分析了特征提取和特征降维的相关算法，得到了由特征词和对应权重构成的特征向量，并构造了向量空间模型(VSM);研究了文本聚类的相关理论和可用算法，并结合向量空间模型、BWP指标、k-means聚类算法、余弦度量和平方误差准则等建立了第一次文本分类模型;在推荐环节中研究了基于内容的推荐系统，确定了推荐方法，完成了基于网络用户行为分析的用户推荐系统的设计。　　(2)提出了基于信息熵的二次聚类改进推荐算法。通过对信息熵相关理论的研究，明确了信息熵可以作为精确推荐的一种衡量标准和定量度量，并以此为二次聚类推荐模型建立了理论基础;提出并利用了最邻近熵差、最邻近熵差阈值、平均熵值逼近等信息熵相关概念和公式对初始聚类簇数、簇心以及最终推荐内容进行了判断和计算;然后结合向量空间模型、最邻近熵差阈值、平均熵值逼近、连续型随机变量的均匀分布以及确定了初始聚类簇数和簇心的k-means聚类算法建立了第二次文本分类模型;之后通过对对数函数的拟合以及同时结合距离和信息熵值度量的方式得出推荐结果的个数和内容，完成了基于信息熵的二次聚类推荐模型的构造。　　(3)设计了相关实验对基于网络用户行为分析的用户推荐反馈系统和基于信息熵的二次聚类改进推荐算法性能进行了验证。实验结果显示，本课题设计的基于网络用户行为分析的用户推荐反馈系统能够成功实现对特定用户的相关推荐，并提供了与用户兴趣和需求高度相近的推荐结果;通过比较基于信息熵的二次聚类改进推荐算法和传统算法的精确度、召回率以及F-measure系数，发现前者在这三个参数中均占有较明显优势，证明基于信息熵的二次聚类改进推荐算法相比于传统算法提高了推荐的准确程度。

关键词：网络用户行为分析;文本聚类;信息熵;推荐系统

授予单位：北京化工大学

授予学位：硕士

学科专业：计算机科学与技术

导师姓名：李辉

学位年度：2015

语种：中文

分类号：TP391.3

页数：102

在线出版日期：2015-12-29（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

基于网络用户行为分析的用户推荐反馈系统的设计