爬虫思路总结

佚名 7年前 (2019-04-12) 随笔 572人围观抢沙发百度已收录

1.URL

　　star_url

SRE实战互联网时代守护先锋，助力企业售后服务体系运筹帷幄！一键直达领取阿里云限量特价优惠。

　　当URL规律特别明显的时候，构建URL地址

　　直接在页面中提取下一页的URL

2.发送请求获取相应

　　添加随机的User-Agent

　　添加随机的代理IP

　　在对方判断出我们是爬虫后，应该添加更多的headers字段，包括cookie

　　　　cookie的处理可以用session

　　　　如果不登陆

　　　　　　准备刚开始能够成功请求对方个网站的cookie，即接收对方网站设置在response的cookie，在下一次请求的时候，使用之前的列表中的cookie来请求

　　　　如果登陆

　　　　　　准备多个账号

　　　　　　使用程序获取每个账号的cookie

　　　　　　之后请求登陆后才能访问的网站随机的选择cookie

3.提取数据

　　确定数据的位置

　　　　如果数据在当前URL地址中，提取的是列表页的数据，直接请求列表页的URL，不用进入详情页的

　　　　提取详情页的数据

　　　　　　1.确定URL

　　　　　　2发送请求

　　　　　　3.提取数据

　　　　　　4.返回

　　　　如果数据不在当前的URL地址中

　　　　　　在其他的相应中，寻找数据位置

　　　　　　1.从network中从上往下找

　　　　　　2.使用Chrome中的过滤条件，选择出了JS，CSS，img之外的按钮

　　　　　　3.使用Chrome的search all file，搜索数字和英文

　　　　提取数据

　　　　xpath，从HTML中提取整块的数据，先分组，之后每一组再提取

　　　　re，提取max_time.price,html中的json字符串

　　　　json

扫码关注我们

微信号：SRE实战

拒绝背锅运筹帷幄

赞 0 赏分享

转载请注明 : 文章转载自小翔博客爬虫思路总结

本文标题：爬虫思路总结

本文链接：https://www.liuyixiang.com/post/33538.html

上一篇 : spark解决text乱码问题

下一篇 : webpack常见问题收藏

评论列表暂无评论

发表评论

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29

爬虫思路总结

选择打赏方式：

选择分享方式：

Petter

101481

12

121484300

爬虫思路总结

选择打赏方式：

选择分享方式：

Petter

101481

12

121484300

User Login

帐号或密码错误,请重试.