基于互信息的网页信息过滤技术的研究与应用

王伟华

南昌航空大学

下载全文

在线阅读

引用

摘要：

在当今信息化高度发达的社会里，人们可以享受到信息化技术所带来的诸多便利，如网上购物、网上银行、远程办公等。同时，各种各样的非法信息，如色情、暴力、反动、封建迷信等，也通过网络呈现在人们的面前。这些非法信息不仅让人们在精神上和肉体上遭受双重伤害，而且更进一步加深了网络文化产业对社会所造成的负面影响。目前过滤掉这些非法信息也就成了人们的当务之急。因此，如何有效地过滤掉这些非法信息也就成为众多专家学者们研究的一个焦点。　　在信息论中，互信息通常是两个随机变量之间统计相关性的度量单位。在文本分类中，若特征词属于某一类别，则它们之间的互信息量最大。因此，人们使用互信息来度量特征词与类别之间的相关性。互信息量越大，特征词和类别的相关性也越大；反之则越小。由于互信息事先不需要对两个变量之间的关系作任何假设和限制，所以它在中文分词、图像处理、文本分类等方面应用非常广泛。因此，本文将互信息作为待测文本与主题之间相关性的度量并提出了基于互信息的网页信息过滤技术的研究与应用。本文依据训练语料库的构建、文本的向量表示、文本内容的特征提取、互信息过滤模型的改进以及Resnik的选择倾向模型等知识与技术构建一个对非法网页信息进行过滤的系统。具体内容如下：　　首先，统计模型在实际应用中一个最基础的前提就是构建训练语料库。本文先构建两个正则表达式以提取网页中的标题和正文，然后对抽取到的信息进行人工校验和整理，从而得到一个规模适中、分布均匀的语料库。　　然后，统计模型的另一个基本问题就是如何有效地表示文本内容。本文对文本进行切词、停用词处理，将单个词语看作向量中的一个项，这样就可以用向量来表示文本内容。为了提高计算速度和过滤效率，本文依据CHI模型设计了一个精简向量空间维数的算法以获得一个维数合适的特征向量。　　其次，本文对平均互信息公式进行改进并计算该待测文本特征向量与所有主题特征向量的平均互信息值，然后把它们与事先设定的阈值进行比较。若有一个值比事先设定的阈值大，则应把该待测文本作为非法文本过滤掉；若这些平均互信息值均小于事先设定的阈值，则应把该待测文本作为合法文本并呈现给用户。　　最后，特征向量中特征项的动态更新也是非法网页过滤系统的一个重要组成部分。因此，本文将依据 Resnik提出的选择倾向模型设计和实现一个动态更新特征向量中特征项的算法来解决上述问题。　　在上述理论研究的基础上，本文设计并构建了一个对网页中的非法信息进行过滤的系统并对其进行了一系列实验。其实验结果说明此系统的执行速度令人基本满意，过滤效果良好。

关键词：网页信息过滤;特征提取;CHI模型;动态更新

授予单位：南昌航空大学

授予学位：硕士

学科专业：计算机应用技术

导师姓名：舒远仲;曹均阔

学位年度：2012

语种：中文

分类号：TP393.092

页数：59

在线出版日期：2013-10-08（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

基于互信息的网页信息过滤技术的研究与应用