看崔庆才爬虫教程视频做的笔记。

1.什么是爬虫?

请求网站并提取数据的自动化程序。

2.爬虫的基本流程

  • 发送请求:通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等信息,等待服务器响应。
  • 获取响应内容:如果服务器能正常响应,会得到一个Response, Response的内容便是所要获取的页面内容,类型可能有HTML,Json字符串,二进制数据(如图片视频)等类型。
  • 解析内容:得到的内容可能是HTML,可以用正则表达式、网页解析库进行解析。可能是Json,可以直接转为Json对象解析,可能是二进制数据,可以做保存或者进一步的处理。
  • 保存数据:保存形式多样,可以存为文本,也可以保存至数据库,或者保存特定格式的文件。

3.什么是Request和Response?

Python爬虫基本原理 Python 第1张

SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。

 

4.Request中包含什么?

Python爬虫基本原理 Python 第2张

5.Response中包含什么?

Python爬虫基本原理 Python 第3张

6.能抓怎样的数据?

Python爬虫基本原理 Python 第4张

7.怎样来解析?

Python爬虫基本原理 Python 第5张

8.怎样解决JavaScript渲染的问题?

Python爬虫基本原理 Python 第6张

9.可以怎样保存数据?

Python爬虫基本原理 Python 第7张

 

扫码关注我们
微信号:SRE实战
拒绝背锅 运筹帷幄