1 project 属性

  a group 分组标识,暂时仅用于区分

SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。

  b name 脚本的名字 只允许a-zA-Z--9_

  c status 任务状态  只有处于debug 和running 的状态的任务才会被执行

  d rate   每秒抓取的页面个数

  e burst 并发数

2 task 

  任务是spider 调度的最小单位

  默认使用url 的md5 作为taskid ,根据url 对抓取去重

3 script 

  未做任何隔离,可调用host 机器环境中的任何lib 和资源

4 执行环境

  环境变量 __project__ == self.project   当前的任务信息

  self.project_name 当前的脚本名

  self.response   当前请求的response

  self.task   当前请求的原始task信息

  logging   (logger,和print 信息)

扫码关注我们
微信号:SRE实战
拒绝背锅 运筹帷幄