今天在爬知乎精华时,出现了‘Forbidden by robots.txt’的问题

了解scrapy在爬取设定的url之前,它会先向服务器根目录请求一个txt文件,这个文件规定了爬取范围

SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。

scrapy会遵守这个范围协议,查看自己是否符合权限,出错说明不符合,所以我们只要不遵守这个协议就Ok了

在settings.py中找到 ROBOTSSTXT_OBEY

ROBOTSTXT_OBEY=False

 

问题就解决了。

 

扫码关注我们
微信号:SRE实战
拒绝背锅 运筹帷幄