Python爬虫常用数据库：Request 介绍讲解

佚名 6年前 (2020-07-30) Python 2040人围观抢沙发百度已收录

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

SRE实战互联网时代守护先锋，助力企业售后服务体系运筹帷幄！一键直达领取阿里云限量特价优惠。

作者：印象Python

PS：如有需要Python学习资料的小伙伴可以加下方的群去找免费管理员领取

Request的介绍

在入门教程中我们介绍了urllib库和urllib2的用法，同时我们了解一些爬虫的基础以及对爬虫有了基本的了解。其实在我们生产环境中，使用Request库更加方便与实用，同时我们这需要短短的几行代码就能解决大量的事情。

Request的安装

在Python简介与环境配置中我们已经安装了PIP管理工具，如果你是2.x版本，也可以使用easy_install来安装Request库，它可以帮助我们很容易的安装三方库：

使用pip安装Request

# pip2.x安装requests
pip install requests
# pip3.x安装requests
pip3 install requests

使用easy_install安装Request

easy_install requests

Request的使用

在python中引入三方模块非常简单，只需要import引入即可：

import requests

req = requests.get("https://ptorch.com")
print(req.text)

这样我们即可快速提取目标网页的代码，使用起来非常方便！

Request基本请求方式

你可以通过requests库发送所有的http请求：

requests.get("http://httpbin.org/get") #GET请求
requests.post("http://httpbin.org/post") #POST请求
requests.put("http://httpbin.org/put") #PUT请求
requests.delete("http://httpbin.org/delete") #DELETE请求
requests.head("http://httpbin.org/get") #HEAD请求
requests.options("http://httpbin.org/get") #OPTIONS请求

使用Request发送GET请求

想要使用爬虫获取某个目标网页，直接使用get方法即可发送HTTP GET请求：

req = requests.get("http://httpbin.org/get")

通常情况下我们不会只访问基础网页，特别是爬取动态网页时我们需要传递不同的参数获取不同的内容；GET传递参数有两种方法，可以直接在链接中添加参数或者利用params添加参数：

import requests

payload = {'key1': 'value1', 'key2': 'value2'}
req = requests.get("http://httpbin.org/get", params=payload)
# 方法二
# req = requests.get("http://httpbin.org/get?key2=value2&key1=value1")
print(req.url)

使用Request发送POST请求

其实发送POST请求与GET方式很相似，只是参数的传递我们需要定义在data中即可：

import requests

payload = {'key1': 'value1', 'key2': 'value2'}
req = requests.post("http://httpbin.org/post", data=payload)
print(req.text)

POST发送JSON数据

很多时候你想要发送的数据并非编码为表单形式的,发现特别在爬取很多java网址中出现这个问题。如果你传递一个string而不是一个 dict，那么数据会被直接发布出去。我们可以使用json.dumps()是将dict转化成str格式;此处除了可以自行对dict进行编码，你还可以使用json参数直接传递，然后它就会被自动编码。

import json
import requests

url = 'http://httpbin.org/post'
payload = {'some': 'data'}

req1 = requests.post(url, data=json.dumps(payload))
req2 = requests.post(url, json=payload)
print(req1.text)
print(req2.text）

POST文件上传

如果我们要使用爬虫上传文件，可以使用file参数：

url = 'http://httpbin.org/post'
files = {'file': open('test.xlsx', 'rb')}

req = requests.post(url, files=files)
req.text

如果有熟悉WEB开发的伙伴应该知道，如果你发送一个非常大的文件作为multipart/form-data请求，你可能希望将请求做成数据流。默认下requests不支持, 你可以使用requests-toolbelt三方库。

请求会话

在很多时候我们开发的爬虫需要登录，登录后我们需要记录登录状态，否则无法爬取登录后才能爬取的网页，在request中提供了requests.Session()这样的类:

import requests
s = requests.Session()
s.get('http://httpbin.org/get')

这样我们的request只要调用一次登录入口就会自动维护网站的Session记录我们的登录状态，以后我们可以直接使用request访问登录才能访问的页面。

Cookie获取

我们可以使用cookies来获取响应中的cookie: 如果某个响应中包含一些 cookie，你可以快速访问它们：

req = requests.get("https://ptorch.com")

req = requests.get("https://ptorch.com")
print(req.cookies)
print(req.cookies['laravel_session'])

要想发送你的cookies到服务器，可以使用cookies参数：

cookies = dict(cookies_are='working Test')

req = requests.get("http://httpbin.org/cookies", cookies=cookies)
print(req.text)
# '{"cookies": {"cookies_are": "working Test"}}'

Cookie的返回对象为RequestsCookieJar，它的行为和字典类似，但界面更为完整，适合跨域名跨路径使用。你还可以把Cookie Jar传到Requests中：

jar = requests.cookies.RequestsCookieJar()
jar.set('tasty_cookie', 'yum', domain='httpbin.org', path='/cookies')
jar.set('gross_cookie', 'blech', domain='httpbin.org', path='/elsewhere')
url = 'http://httpbin.org/cookies'
req = requests.get(url, cookies=jar)
print(req.text)
# '{"cookies": {"tasty_cookie": "yum"}}'

保存cookie方便下次访问,我们需要将CookieJar转为字典或者将字典转为CookieJar

#将CookieJar转为字典：
cookies = requests.utils.dict_from_cookiejar(r.cookies)

#将字典转为CookieJar：
cookies = requests.utils.cookiejar_from_dict(cookie_dict, cookiejar=None, overwrite=True)

超时配置

你可以告诉requests在经过以timeout参数设定的秒数时间之后停止等待响应。基本上所有的生产代码都应该使用这一参数。如果不使用，你的程序可能会永远失去响应：

requests.get('http://github.com', timeout=0.001)

注：timeout 仅对连接过程有效，与响应体的下载无关。

也就是说，这个时间只限制请求的时间。即使返回的 response 包含很大内容，下载需要一定时间，然而这并没有什么卵用。

代理

很多情况下网址具有反爬虫机制，如果我们的访问量达到一定的数量会封掉我们的IP,比如很多朋友爬取微信文章常常需要使用代理，你可以通过proxies参数为任意请求来设置代理，我们可以百度免费代理来获取一些免费的代理，速度不是很快，但是练习足够了。

import requests

proxies = {
 "https": "http://127.0.0.1:4433"
}
req = requests.post("http://httpbin.org/post", proxies=proxies)
print(req.text)

我们也可以通过HTTP_PROXY和HTTPS_PROXY环境变量来配置代理。

export HTTP_PROXY="http://127.0.0.1:2091"
export HTTPS_PROXY="http://127.0.0.1:2092"

请求头设置

爬虫中我们需要定制请求头来修改我们的HTTP请求，特别是很多发爬虫工具禁止脚本访问，我们可以设置headers参数来模拟浏览器访问，同时我们还可以通过headers来传递cookie来保持我们的登录状态：

headers = {'user-agent': 'my-app/0.0.1'}
req = requests.get("https://api.github.com/some/endpoint", headers=headers)

下载图片

有时候我们想下载我们爬取页面的img图片，你可以使用requests请求图片，获取response.content文本信息，实际上获取的是图片的二进制文本，然后保存即可：

import requests

response = requests.get("https://ptorch.com/img/logo.png")
img = response.content
open('logo.jpg', 'wb').write(response.content)

如果要下载验证码，可以使用上面的会话请求加载这里的下载代码即可。

获取Request响应

爬虫中我们发送了请求，我们可以使用如下方法获取Request响应用于分析和检测：

# 响应状态码
req.status_code
# 响应头
req.headers
# 获取请求链接
req.url
# 获取网页编码
req.encoding
# 获取cookie
req.cookies
# 获取网页代码
req.text

扫码关注我们

微信号：SRE实战

拒绝背锅运筹帷幄

赞 0 赏分享

转载请注明 : 文章转载自小翔博客 Python爬虫常用数据库：Request 介绍讲解

本文标题：Python爬虫常用数据库：Request 介绍讲解

本文链接：https://www.liuyixiang.com/post/116162.html

上一篇 : PyTorch实现TPU版本CNN模型

下一篇 : 343整数拆分

评论列表暂无评论

发表评论

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29

Python爬虫常用数据库：Request 介绍讲解

Request的介绍

Request的安装

Request的使用

使用Request发送POST请求

请求会话

Cookie获取

超时配置

代理

请求头设置

下载图片

获取Request响应

选择打赏方式：

选择分享方式：

Petter

101481

12

121484300

Python爬虫常用数据库：Request 介绍讲解

Request的介绍

Request的安装

Request的使用

使用Request发送POST请求

请求会话

Cookie获取

超时配置

代理

请求头设置

下载图片

获取Request响应

选择打赏方式：

选择分享方式：

Petter

101481

12

121484300

User Login

帐号或密码错误,请重试.