10.3969/j.issn.1000-386x.2020.08.006
多维布隆算法在Redis指纹自动过期中的应用
针对Scrapy-Redis框架占用空间严重,且Redis一旦键过期就会删除全部去重集合内数据的情况,设计基于多维Bloom过滤器的指纹自动过期算法,并采用Python语言实现.实现后的代码通过替换去重类和修改框架内方法等操作,集成到Scrapy-Redis框架中.在测试阶段,将使用重构后框架与使用Redis散列表设置指纹过期时间的方法进行了对比,结果显示重构后框架更能在大规模爬虫中节省大量空间,同时能够在满足误判率低于万分之一的情况下实现指纹的自动过期.
多维布隆算法、Scrapy-Redis、指纹过期、爬虫、亿级规模
37
TP311(计算技术、计算机技术)
2020-08-19(万方平台首次上网日期,不代表论文的发表时间)
共6页
33-38