前言

以博客园为例,爬取我的博客上首页的发布时间、标题、摘要,本篇先小试牛刀,先了解下它的强大之处,后面讲beautifulsoup4的详细功能。

SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。

 

一、安装

1.打开cmd用pip在线安装beautifulsoup4

>pip install beautifulsoup4

python爬虫beautifulsoup4系列1 Python 第1张

 

二、解析器

1.我们主要用第一个html.parser,这个是python的标准库,可以直接用。其它几个需要安装对应解析器,

下表列出了主要的解析器,以及它们的优缺点:

python爬虫beautifulsoup4系列1 Python 第2张

 

三、打印首页博客的时间

1.这里直接定位不好定位到,可以先定位它的父元素:class="dayTitle"

,

前言

以博客园为例,爬取我的博客上首页的发布时间、标题、摘要,本篇先小试牛刀,先了解下它的强大之处,后面讲beautifulsoup4的详细功能。

 

一、安装

1.打开cmd用pip在线安装beautifulsoup4

>pip install beautifulsoup4

python爬虫beautifulsoup4系列1 Python 第3张

 

二、解析器

1.我们主要用第一个html.parser,这个是python的标准库,可以直接用。其它几个需要安装对应解析器,

下表列出了主要的解析器,以及它们的优缺点:

python爬虫beautifulsoup4系列1 Python 第4张

 

三、打印首页博客的时间

1.这里直接定位不好定位到,可以先定位它的父元素:class="dayTitle"

扫码关注我们
微信号:SRE实战
拒绝背锅 运筹帷幄