1.URL

  star_url

SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。

  当URL规律特别明显的时候,构建URL地址

  直接在页面中提取下一页的URL

 

2.发送请求获取相应

  添加随机的User-Agent

  添加随机的代理IP

  在对方判断出我们是爬虫后,应该添加更多的headers字段,包括cookie

    cookie的处理可以用session

    如果不登陆

      准备刚开始能够成功请求对方个网站的cookie,即接收对方网站设置在response的cookie,在下一次请求的时候,使用之前的列表中的cookie来请求

    如果登陆

      准备多个账号

      使用程序获取每个账号的cookie

      之后请求登陆后才能访问的网站随机的选择cookie

3.提取数据

  确定数据的位置

    如果数据在当前URL地址中,提取的是列表页的数据,直接请求列表页的URL,不用进入详情页的

    提取详情页的数据

      1.确定URL

      2发送请求

      3.提取数据

      4.返回

    如果数据不在当前的URL地址中

      在其他的相应中,寻找数据位置

      1.从network中从上往下找

      2.使用Chrome中的过滤条件,选择出了JS,CSS,img之外的按钮

      3.使用Chrome的search all file,搜索数字和英文

    提取数据

    xpath,从HTML中提取整块的数据,先分组,之后每一组再提取

    re,提取max_time.price,html中的json字符串

    json

扫码关注我们
微信号:SRE实战
拒绝背锅 运筹帷幄