scrapy处理python爬虫调度详解

学习了简单的知识点，就会想要向有难度的问题挑战，这里必须要夸一夸小伙伴们。不过我们今天不需要做什么程序的测试，只用简单的两个代码对比，小伙伴们就能在其中体会两者的不同和难易程度。scrapy能否适合处理python爬虫调度的问题，小编直接说出答案小伙伴们也不能马上信服，下面就让我们在示例中找寻答案吧。

总的来说，需要使用代码来爬一些数据的大概分为两类人：

非程序员，需要爬一些数据来做毕业设计、市场调研等等，他们可能连 Python 都不是很熟；

程序员，需要设计大规模、分布式、高稳定性的爬虫系统，对他们来说，语言都无所谓的，更别说用不用框架了。

对于一个任何一个已经入门的程序员来说，Python 都算不上一个很复杂的语言，除了不用大括号可能让一些人感觉有些不适应之外，基本上看看语法上手就能写了。但是恰恰是因为我们都是老司机了，所以不能体会到使用一门编程语言对于外行来说可能『比登天还难』。如果不用 scrapy，可能我只需要这样：

import requests
def main():
  for i in range(100):
    rsp = requests.get(f"http://www.example.com/{i}.html")
    with open("example-{i}.txt", "w") as f:
      f.write(rsp.text)
if __name__ == "__main__":
  main()

就写好了一个简单的爬虫，而使用 scrapy 呢，大概需要这样吧：

import scrapy
class QuotesSpider(scrapy.Spider):
  name = 'quotes'
  def start_requests(self):
    urls = [
      'http://quotes.toscrape.com/page/1/',
      'http://quotes.toscrape.com/page/2/'
    ]
    for url in urls:
      yield scrapy.Request(url=url, callback=self.parse)
  def parse(self, response):
    page = response.url.split('/')[-2]
    filename = 'quotes-%s.html' % page
    with open(filename, 'wb') as f:
      f.write(response.body)
    self.log('Save file %s' % filename)

先不说代码增长了一倍有余，初学者会问到这些问题：什么是 class？为什么类还有参数？啊，什么是继承？yield 又是什么鬼，那个 scrapy.Request 又是啥？这些都是负担。

既然要开发大型爬虫系统，那么其中很重要的一部分就是爬虫的调度了。一种比较简单的模式是 scheduler 作为 master，全局调度。另一种模式没有 master，所有的爬虫 worker 都是对等的。在实际生产中显然是第一种用的更多。

显然 scheduler 这部分是不能再用一个爬虫框架来实现的，连主循环都没有咋写逻辑呢？我们可能还要实现增量爬取，或者消费业务方发来的爬取请求等各种业务，这块显然是在 scheduler 里面的，那么这个爬虫系统无非是 scheduler 分发任务给各个 worker 来抓取。worker 还可以使用 scrapy 实现，但是呢，这个 worker 其实已经弱化为一层薄薄的 downloader 了，那我要他干嘛呢？scrapy 的核心逻辑也不过是个深度或者广度优先的遍历而已，少一个依赖不好么……

爬虫的工作量要么在反爬，要么在调度等业务逻辑，本身只是一个 requests.get 而已，scrapy 提供的种种抽象对于初学者太复杂，大型系统又用不上，所以个人不推荐使用包括但不限于 scrapy 在内的所有爬虫框架。

内容扩展：

Scrapy模块

1、scheduler:用来存放url队列

2、downloader：发送请求

3、spiders:提取数据和url

4、itemPipeline：数据保存

from twisted.internet import reactor, defer
from scrapy.crawler import CrawlerRunner
from scrapy.utils.log import configure_logging
import time
import logging
from scrapy.utils.project import get_project_settings
 
 
#在控制台打印日志
configure_logging()
#CrawlerRunner获取settings.py里的设置信息
runner = CrawlerRunner(get_project_settings())
 
@defer.inlineCallbacks
def crawl():
 while True:
  logging.info("new cycle starting")
  yield runner.crawl("xxxxx")
  #1s跑一次
  time.sleep(1)
 reactor.stop()
 
crawl()
reactor.run()

到此这篇关于scrapy处理python爬虫调度详解的文章就介绍到这了。

您可能感兴趣的文章:

scrapy处理python爬虫调度详解

Jupyter Notebook安装及使用方法解析

Python操作word文档插入图片和表格的实例演示

Python+OpenCV图像处理——实现轮廓发现

Sentry错误日志监控使用方法解析

Python高阶函数与装饰器函数的深入讲解

Python数据可视化常用4大绘图库原理详解

python hmac模块验证客户端的合法性

python 下载m3u8视频的示例代码

Django执行源生mysql语句实现过程解析

python对 MySQL 数据库进行增删改查的脚本

python两种获取剪贴板内容的方法

Python操作word文档插入图片和表格的实例演示

Jupyter Notebook安装及使用方法解析

用python写一个带有gui界面的密码生成器

4款Python 类型检查工具,你选择哪个呢？

Django执行源生mysql语句实现过程解析

基于python模拟TCP3次握手连接及发送数据

利用python清除移动硬盘中的临时文件

pytorch简介

python3从网络摄像机解析mjpeg http流的示例

汽车app我的询价列表页面模板

在线直播课程讲师介绍手机页面模板

简洁的电商个人中心主页手机模板收藏

在线辅导课程商城首页模板

手机银行公众号主页模板

生鲜水果外卖app手机模板

影视文化传媒公司手机微网站模板

微信weui框架开发的手机商城模块页面

我的积分商城app首页模板

社交app关注列表页面模板

jQuery+Layui省市区城市三级联动菜单选择特效

html文字动画特效，文字虚线边框

jQuery文字公告无限滚动轮播特效

清爽简洁的登录页面

jQuery随机点名中奖后放烟花动画特效