10.3969/j.issn.1000-386x.2022.07.048
重要Tor暗网站点的验证码快速识别和数据采集
针对面向Tor暗网的数据采集和信息监控的任务,为了解决爬取重要Web站点中所遇到的验证码自动识别这个技术难点,设计一套结合CNN网络、GRU网络和ctc loss的快速识别模型,并将其应用到Tor暗网站点的数据采集系统中去.一段时间的实际运行结果充分证明了该Tor暗网数据采集系统能够快速、准确地识别重要Tor暗网站点的验证码,自动绕过检验机制后爬取并存储站点的数据信息,从而有力支撑了暗网数据提炼、分析和挖掘的后续工作.
Tor暗网、CNN网络、GRU网络、ctc loss算法、Scrapy爬虫
39
TP3(计算技术、计算机技术)
国家重点研发计划2016QY01W0202
2022-08-19(万方平台首次上网日期,不代表论文的发表时间)
共7页
315-321