项目作者: geasyheart

项目描述 :
scrapy lofter
高级语言: Python
项目地址: git://github.com/geasyheart/lofter-spider.git
创建时间: 2018-03-22T07:19:05Z
项目社区:https://github.com/geasyheart/lofter-spider

开源协议:

下载


简介

这是一个爬取lofter文章的小爬虫程序,采用Scrapy框架,更多内容可参考官方文档

如何使用

  1. 修改 lofter/lofter/spiders/article_spider.py中的start_urls,更改成要爬取的第一个页面,

如:

  1. class LofterArticleSpider(Spider):
  2. name = "lofter"
  3. start_urls = [
  4. "http://{name}.lofter.com/?page=1" # 此处{name}改成你的名字
  5. ]
  1. 执行下面命令
  1. virtualenv -p python3 .env
  2. source .env/bin/activate
  3. pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/
  4. cd lofter/ && mkdir articles
  5. scrapy crawl lofter
  1. 最终文章将保存在lofter/articles目录下