中文信息过滤技术的研究

李守华

北京化工大学

下载全文

在线阅读

引用

摘要：

近年来，Internet的迅速发展给人们带来诸多方便的同时，也带来了诸如信息过载、信息迷向等很多问题，为了克服这个问题，有必要对Web信息过滤技术进行研究。中文文本信息过滤是中文信息处理的主要方向之一，它根据用户的需求，在动态的信息流中搜索用户感兴趣的信息，屏蔽其它无用的信息。为用户获取和使用信息提供便利。网页文本的提取是进行信息过滤处理的前提。本文对网页的源码进行结构和控制符进行了分析，实现了文本提取和中文分词的程序，使用该程序可以从这些文本中提取关键词形成关键词集合，文档以这些关键词来表示时，信息的处理就变的简单了。目前在数据挖掘的诸多方法中，基于ID3算法的决策树方法是信息过滤中采用较广泛的方法。在对ID3算法学习分析研究的基础上，实现了一个基于ID3算法的决策树分类程序，该程序可以对中文信息进行有效的分类。此外，该程序还可以从分类数据中提取分类规则，这些规则可以根据需要进行增加、删除和修改。实验结果表明决策树分类器确实是一种有效的分类技术。基于贝叶斯网络模型的分类是当前数据挖掘领域的一个有实用价值的研究热点。本文从两个方面对贝叶斯分类模型进行了研究和程序实现：朴素贝叶斯分类与属性关联贝叶斯分类。虽然朴素贝叶斯网是一种简单而有效的分类模型，但它的属性独立性假设使其无法表达属性变量间存在的依赖关系，影响了它的分类性能。通过对关键词集合进行分析，根据关键词出现的规律，提出了一种建立属性间依赖关系的方案，实现了一个基于属性关联的贝叶斯分类器，并和决策树、向量空间模型、BP神经网络、朴素贝叶斯分类器进行实验比较分析了各个方法的优缺点。实验结果表明，属性关联贝叶斯方法有更好的性能。

关键词：信息过滤;决策树;朴素贝叶斯;属性关联贝叶斯;贝叶斯模型

授予单位：北京化工大学

授予学位：硕士

学科专业：计算机应用技术

导师姓名：朱群雄

学位年度：2006

语种：中文

分类号：TP391.1

页数：87

在线出版日期：2006-11-17（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

中文信息过滤技术的研究