Kafka-crawl-spider-image-downloader-PROSAGA-码农传奇

项目作者： nannantingyu

项目描述：
从kafka中读取爬虫抓到的图片url，下载并生成缩略图

高级语言： Python

项目主页：

项目地址: git://github.com/nannantingyu/crawl-spider-image-downloader.git

创建时间： 2018-08-17T10:50:44Z
项目社区：https://github.com/nannantingyu/crawl-spider-image-downloader
开源协议：
下载

下载爬虫图片

通过修改topic, 可在多台服务器部署，做到分布式爬取

配置文件解读

kafka_host: kafka地址，例如：kafka1.jujin8.com:9092,kafka2.jujin8.com:9092,kafka3.jujin8.com:9092
kafka_consumer_group: kafka的consumer_group
kafka_consumer_id: kafka的consumer_id

download_img_topic: 下载图片的kafka的topic
download_file_topic: 下载文件的kafka的topic

redis_host: redis的地址
redis_port: redis端口号

images_path: 图片存储路径
thumb_folder: 缩略图下载的文件夹名称，路径为images_path下
thumb_width: 生成的缩略图的宽度
images_url_prefix: 图片链接前缀

console=是否开启命令行输出

download_time_out: 下载超时时间

启动

python main.py -a image -c True

参数：

 a: image | file, 下载图片或者文件   
 c: True | False | 不填， 是否控制台输出，不填则看.env文件的配置

依赖

 mkdir logs
 pip install pillow
 pip install pykafka
 pip install python-dotenv
 pip install redis


