这个。。是我最近想找实习单位。。结果发现boss上很多实习单位名字就叫‘实习生’。。。。。。。太不讲究了 == 难怪一直搜不到。。咳,其实是我自己水平有限,有些简历根本就投不出去 ==

 scrapy爬取boss直聘实习生数据 Python 第1张

SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。

 

所以就想爬下boss杭州地区有实习生关键词的所有职位,然后在职位详情里面搜索‘python’或者‘爬虫’。。。。

然后小白开始动手了。。。

 

 

首先写item 名字。。公司。。内容。。url

scrapy爬取boss直聘实习生数据 Python 第2张

 

再接着去写爬虫 通过xpath 分析列表页的详情页url 再通过url进入详情页分析数据 (泪流满面。这过程居然没动态加载的数据。。。)

scrapy爬取boss直聘实习生数据 Python 第3张


下一页的url我是通过获取最后一个a标签拿到的 再如果有下一页,就继续爬

scrapy爬取boss直聘实习生数据 Python 第4张

 


至于这个反爬机制 我不仅在settings里设置了下载器延迟 爬虫里面也弄了time.sleep 。。。穷学生买不起代理啊。。。。。好了。。就是慢慢爬。。。。
数据直接导入了mysql mysql代码是早写好的异步代码,当然对于这个龟速爬取(安全),异步同步没区别。。

scrapy爬取boss直聘实习生数据 Python 第5张
然后就没然后了 。。。。 小白思路描述完毕


爬完以后发现也只有10页。。。。。懵逼 = =

 

scrapy爬取boss直聘实习生数据 Python 第6张

 

扫码关注我们
微信号:SRE实战
拒绝背锅 运筹帷幄