前言

  对于一个net开发这爬虫真真的以前没有写过。这段时间开始学习python爬虫,今天周末无聊写了一段代码爬取上海租房图片,其实很简短就是利用爬虫的第三方库Requests与BeautifulSoup。python 版本:python3.6 ,IDE :pycharm。其实就几行代码,但希望没有开发基础的人也能一下子看明白,所以大神请绕行。

第三方库

首先安装

SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。

  我是用的pycharm所以另为的脚本安装我这就不介绍了。

python爬取某站上海租房图片 Python 第1张
 

  如上图打开默认设置选择Project Interprecter,双击pip或者点击加号,搜索要安装的第三方库。其中如果建立的项目多记得Project Interprecter要选择正确的安装位置不然无法导入。

Requests库

requests库的官方定义:Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用。其实他就是请求网络获取网页数据的。

python爬取某站上海租房图片 Python 第2张
 

结果如下:

python爬取某站上海租房图片 Python 第3张
 

其中Request Headers的参数如下:

python爬取某站上海租房图片 Python 第4张
 

 

python爬取某站上海租房图片 Python 第5张
 

BeautifulSoup库

BeautifulSoup可以轻松的解析Requests库请求的页面,并把页面源代码解析为Soup文档,一边过滤提取数据。这是bs4.2的文档

Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,其中lxml 据说是相对而言比较强大的我下面的暗示是python 标准库的。

python爬取某站上海租房图片 Python 第6张
 

选择器select

python爬取某站上海租房图片 Python 第7张
 

BeautifulSoup库需要学习的知识点

python爬取某站上海租房图片 Python 第8张
 

案例:爬取上海租房图片

python爬取某站上海租房图片 Python 第9张
 

只是实现功能,至于代码结果如下:

python爬取某站上海租房图片 Python 第10张
 
扫码关注我们
微信号:SRE实战
拒绝背锅 运筹帷幄