crawlSpider 爬虫

思路:

从response中提取满足某个条件的url地址,发送给引擎,同时能够指定callback函数。

SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。

1. 创建项目 

scrapy startproject  myspiderproject

2. 创建crawlSpider 爬虫

scrapy genspider -t crawl 爬虫名  爬取网站域名

3. 启动爬虫

scrapy crawl  爬虫名     # 会打印日志

scrapy crawl  爬虫名   --nolog

crawlSpider 的参数解析:

Scrapy - CrawlSpider爬虫 随笔 第1张

 

 案例

需求:爬取csdn上面所有的博客专家及其文章的文章 Url地址:http://blog.csdn.net/experts.html 。

分析:

Scrapy - CrawlSpider爬虫 随笔 第2张

使用crawlSpider 的注意点:

Scrapy - CrawlSpider爬虫 随笔 第3张

补充知识点:

Scrapy - CrawlSpider爬虫 随笔 第4张

 

扫码关注我们
微信号:SRE实战
拒绝背锅 运筹帷幄