项目作者: RomaterWoozi
项目描述 :
获取image的爬虫
高级语言: Python
项目地址: git://github.com/RomaterWoozi/scrapy_spider_image.git
练习使用scrapy 框架
学习网络爬虫的开发
遇到问题
1.[Scrapy 403] Error downloading file from referred in
2.[scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to 域名过滤,没有访问scrapy.Request回调的url,
需要在allowed_domain里面添加该url域名
将生成json数据加入到mongodb数据库