项目作者: nickliqian

项目描述 :
抓取免费代理并维护基于redis的代理池。Free proxy IP for common work.
高级语言: Python
项目地址: git://github.com/nickliqian/CrawlFreeProxy.git
创建时间: 2018-01-15T09:46:53Z
项目社区:https://github.com/nickliqian/CrawlFreeProxy

开源协议:Apache License 2.0

下载


CrawlFreeProxy

Free proxy IP for common work (made by python3).

本项目原本是自用的免费代理池,后来用过项目Germey/ProxyPool后,参考Germey的思路,给项目做了简单的web端和api。
项目特性:

  1. 支持HTTP和HTTPS:分别采集和验证http和https的代理
  2. 同步更新:根据网站更新频率进行增量爬取
  3. 提供api

1. 依赖

  • 安装redis server
    way1: sudo apt-get install redis-server
    way2: 安装redis参考链接
  • pypi依赖包
    1. pip3 install requests bs4 Flask lxml redis

2. 使用

  1. python web_app.py

默认开放公网访问

如果需要修改ip和端口,编辑 web_app.py 最后一行,修改host和port的值即可

  1. app.run(host="0.0.0.0", port=7865)

3. api

访问主页

  1. http://192.168.70.40:7865/

代理系统首页

3.1 查看ip总量

  1. http://192.168.70.40:7865/count

查看代理总数

3.2 获取http代理

  1. http://192.168.70.40:7865/random_http

返回 ip:port 字符串

3.3 获取https代理

  1. http://192.168.70.40:7865/random_https

返回 ip:port 字符串