爬虫思路总结
1.URL
star_url
SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。当URL规律特别明显的时候,构建URL地址
直接在页面中提取下一页的URL
2.发送请求获取相应
添加随机的User-Agent
添加随机的代理IP
在对方判断出我们是爬虫后,应该添加更多的headers字段,包括cookie
cookie的处理可以用session
如果不登陆
准备刚开始能够成功请求对方个网站的cookie,即接收对方网站设置在response的cookie,在下一次请求的时候,使用之前的列表中的cookie来请求
如果登陆
准备多个账号
使用程序获取每个账号的cookie
之后请求登陆后才能访问的网站随机的选择cookie
3.提取数据
确定数据的位置
如果数据在当前URL地址中,提取的是列表页的数据,直接请求列表页的URL,不用进入详情页的
提取详情页的数据
1.确定URL
2发送请求
3.提取数据
4.返回
如果数据不在当前的URL地址中
在其他的相应中,寻找数据位置
1.从network中从上往下找
2.使用Chrome中的过滤条件,选择出了JS,CSS,img之外的按钮
3.使用Chrome的search all file,搜索数字和英文
提取数据
xpath,从HTML中提取整块的数据,先分组,之后每一组再提取
re,提取max_time.price,html中的json字符串
json

更多精彩