项目作者: LiuXingMing

项目描述 :
基于Redis的Bloomfilter去重,并将其扩展到Scrapy框架。
高级语言: Python
项目地址: git://github.com/LiuXingMing/Scrapy_Redis_Bloomfilter.git
创建时间: 2016-11-10T06:32:07Z
项目社区:https://github.com/LiuXingMing/Scrapy_Redis_Bloomfilter

开源协议:

下载


bloomfilterOnRedis.py:

基于Redis的Bloomfilter去重,已经封装成一个类,只需两行代码即可实现去重。更多介绍见:《基于Redis的Bloomfilter去重(附Python代码)》



scrapyWithBloomfilter_demo:

一个简单的scrapy demo,对scrapy_redis模块作了一些修改,将去重模块替换成了Bloomfilter去重。更多介绍见:《scrapy_redis去重优化(已有7亿条数据),附Demo福利》



种子优化:

在scrapyWithBloomfilter_demo中我对默认的种子作了一些修改,在settings.py中将 SCHEDULER_QUEUE_CLASS 改成 ‘scrapyWithBloomfilter_demo.scrapy_redis.queue.SpiderSimpleQueue’ 即可。详细介绍见:《scrapy_redis种子优化》