项目作者: zhu733756
项目描述 :
scrapy crawl douban.py
高级语言: Python
项目地址: git://github.com/zhu733756/Itchat-DBMovieComments.git
功能介绍:
本project不仅是一个能和图灵机器人聊天的程序(这一部分不作说明了),
而且还添加了彩蛋,能实时获取豆瓣影评,自动生成可视化数据发送给用户。
使用说明:
确认开发环境搭配好后,我们可以使用微信操作:
1 开启彩蛋(彩蛋关键词主要有:豆瓣、电影、movie等)

2 搜索电影名称(继续输入电影名称或者需要搜索的关键词,比如我这里输入1)

3 选择电影序号,查看电影简介(输入数字1-10之间,这里我选择3,选中第三部电影,显示结果就是电影简介)

4 确认选择,就输入crawl,这样就自动加入下载队列了,
如果不是你想要的电影,可以选择back返回上一级,重新输入

5 如果有第二个需求,输入back返回上一级重新输入,重复第三步或者第四步

6 爬取过程中,可以随时输入chat进入聊天,或者esc退出程序
7 等到爬虫爬取完毕后(需要等待一段时间),会把结果发给用户

依赖安装
确认安装好phantomjs插件(可访问pyechart官网下载),并将其bin路径加入系统变量
(例如: D:\anaconda\phantomjs-2.1.1-windows\bin)
所需python第三方包合辑:
pip install -r requirements.txt
开发环境
windows 7, python 3.6(作者下载的是对应python3.6版本的anconda)
打开数据库连接(redis和mongo)
在pycharm中运行start.bat(把两个数据库的路径修改为你的路径)

配置代理池(确认redis数据库已经打开)
进入proxypool目录,修改settings.py文件
PASSWORD为Redis密码,如果为空,则设置为None
python run.py
运行主程序
python main.py
说明:
WebSpider文件夹中包含两个project
ProxyPool-master(这个project来自崔大大@Germey,感谢他,不用让作者再造轮子!)。
前者也就是主程序,后者是代理抓取程序,缺一不可。