DOI：10.3969/j.issn.1000-386x.2018.12.007

海量网络文本去重系统的设计与实现

引用

摘要：

如今网络和信息技术飞速发展,每天都有数以亿万计的文本数据产生.然而,不可避免地有很多文本内容是重复的.这样导致用户在利用搜索引擎搜索或者在网站上浏览内容时会看到很多相似的东西.这不仅给用户带来了不好的体验,对内容提供商来说,也需要花费更多的资源对重复冗余的内容进行存储.因此,对文本做一些相似度判断的基本处理,去除重复的文本有很重要的意义和价值.提出设计和实现一种基于simhash的文本去重系统.该系统可以对每天新产生的文本内容进行相似度计算,对于相似的内容只生成一份唯一标识并进行入库处理,有效排除了相似度太高的重复文本.

关键词：文本去重、Simhash、相似度

所属期刊栏目：35

分类号：TP391(计算技术、计算机技术)

在线出版日期：2019-04-25（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：33-37

英文信息展示

个人中心

我的学术圈

我的书案

退出

期刊专题

海量网络文本去重系统的设计与实现