pyspider学习笔记
1 project 属性
a group 分组标识,暂时仅用于区分
SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。b name 脚本的名字 只允许a-zA-Z--9_
c status 任务状态 只有处于debug 和running 的状态的任务才会被执行
d rate 每秒抓取的页面个数
e burst 并发数
2 task
任务是spider 调度的最小单位
默认使用url 的md5 作为taskid ,根据url 对抓取去重
3 script
未做任何隔离,可调用host 机器环境中的任何lib 和资源
4 执行环境
环境变量 __project__ == self.project 当前的任务信息
self.project_name 当前的脚本名
self.response 当前请求的response
self.task 当前请求的原始task信息
logging (logger,和print 信息)

更多精彩