项目作者: dactoankmapydev

项目描述 :
Dùng scrapy-splash kết hợp lua script để crawl các trang web sử dụng Javascript (websosanh)
高级语言: Python
项目地址: git://github.com/dactoankmapydev/Crawler_Web_Js.git
创建时间: 2018-11-04T17:52:58Z
项目社区:https://github.com/dactoankmapydev/Crawler_Web_Js

开源协议:

下载


Crawler-JS

Dùng scrapy-splash kết hợp lua script để crawl các trang web sử dụng Javascript (websosanh)

  1. ├── crawl_service
  2. ├── __init__.py
  3. ├── items.py
  4. ├── middlewares.py
  5. ├── pipelines.py
  6. ├── run.py
  7. ├── settings.py
  8. └── spiders
  9. ├── __init__.py
  10. └── websosanh.py
  11. └── lazada.py
  12. ├── requirements.txt
  13. └── scrapy.cfg
  • Cài đặt Splash

Cài Docker sau đó chạy

  1. $ sudo docker pull scrapinghub/splash

  1. $ sudo docker run -p 8050:8050 scrapinghub/splash
  • Cài các thư viện cần thiết khác ( Nên dùng virtualenv )
    1. pip install -r requirements.txt
  • Chạy script
    1. python run.py
    hoặc
    1. scrapy crawl wss
    2. scrapy crawl lazada