今天

 

SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。

小帅b想给大家讲一个小明的小故事

 

 

...

 

 

 

 

话说

 

在很久很久以前

 

小明不小心发现了一个叫做

 

学习python的正确姿势

 

的公众号

 

从此一发不可收拾

 

看到什么网站都想爬取

 

python爬虫10 | 网站维护人员:真的求求你们了,不要再来爬取了!! 随笔 第1张

 

有一天

 

小明发现了一个小黄网

 

里面的小姐姐

 

一个比一个诱人

 

看了一会这个小黄网

 

小明不知道在倒腾什么

 

反正30秒之后小明虎躯一震

 

python爬虫10 | 网站维护人员:真的求求你们了,不要再来爬取了!! 随笔 第2张

 

....

 

 

那天晚上

 

小明躺在床上

 

夜不能寐

 

脑子一直都停留在那个

 

突然灵光一闪

 

我这不是刚学了爬虫技术么

 

我应该把那个网站上的小姐姐都爬取到自己的电脑啊

 

就算下次那个没了

 

自己也还有东西可看

 

真是佩服自己的机智啊

 

python爬虫10 | 网站维护人员:真的求求你们了,不要再来爬取了!! 随笔 第3张

 

.....

 

第二天小明就开始爬取

 

小明使用

 

python爬虫入门01:教你在 Chrome 浏览器轻松抓包

 

抓了一下数据的请求

 

然后用

 

python爬虫04 | 长江后浪推前浪,Reuqests库把urllib库拍在沙滩上

 

开启一顿的骚操作

 

python爬虫10 | 网站维护人员:真的求求你们了,不要再来爬取了!! 随笔 第4张

 

...

 

哎~

 

小明还是太年轻了

 

这时候网络运维人员看到了自己的服务器

 

“瓦里割草”

 

怎么突然被疯狂的请求?

 

赶紧看一下日志

 

妈的,都是同一个 IP

 

谁他妈闲着没事来搞我?

 

小伙再定睛一看

 

我去, user-agent 是 python 程序

 

把小伙子给气的啊

 

直接把对方的 ip 地址给封了(加入黑名单)

 

python爬虫10 | 网站维护人员:真的求求你们了,不要再来爬取了!! 随笔 第5张

 

....

 

 

小明本来以为一切都能按自己计划行事

 

没想到突然中断了

 

小明重新运行了一下程序

 

发现完全无法连接了

 

以为是自己的网络断了

 

可是自己上百度是可以的啊

 

后来突然想到

 

好像之前 小帅b 说过

 

爬虫要学会伪装,要不然很容易被对方识破的

 

python爬虫10 | 网站维护人员:真的求求你们了,不要再来爬取了!! 随笔 第6张python爬虫10 | 网站维护人员:真的求求你们了,不要再来爬取了!! 随笔 第7张python爬虫10 | 网站维护人员:真的求求你们了,不要再来爬取了!! 随笔 第8张

 

....

 

原来如此

 

小明使用了代理ip

 

把 user-agent 设置为 Chrome 浏览器

 

然后又开始一顿的爬取了

 

还特么开启了多线程

 

python爬虫10 | 网站维护人员:真的求求你们了,不要再来爬取了!! 随笔 第9张

 

....

 

 

运维人员又发现不对劲

 

妈的

 

这数据不正常,这不正常

 

肯定有人又来搞事情了

 

然后就把网站设置为只有登录的人才可以获取数据

 

.....

 

 

小明发现了

 

觉得这是小意思

 

在这个网站注册了账号

 

然后设置了相应的cookie

 

继续爬!

 

....

 

没过多久

 

小明的手机突然响了

 

小明以为是自己的外卖到了

 

拿起电话就说:来了~

 

结果没想到的是

 

手机那边传来:wcnmlgb!你他妈再爬你看我不弄死你

 

吓得小明差点yw

 

python爬虫10 | 网站维护人员:真的求求你们了,不要再来爬取了!! 随笔 第10张

 

挖槽

 

原来刚刚自己注册的是自己的手机号码

 

小明突然觉得自己太 sb 了

 

....

 

小明本来想就这样算了的

 

可是刚被骂的觉得很不爽

 

小明把自己的手机关机

 

然后自己注册了很多个账号

 

搞了多个 cookie 池

 

一起爬!!

 

python爬虫10 | 网站维护人员:真的求求你们了,不要再来爬取了!! 随笔 第11张

 

....

 

 

这次运维人员慌了

 

没想到对方这么会搞事情

 

开始对那些频繁访问的ip给封了

 

然后给自己的网站加了验证码

 

谁他妈想要请求数据

 

都要先输入一次验证码才可以

 

这次看你怎么搞

 

python爬虫10 | 网站维护人员:真的求求你们了,不要再来爬取了!! 随笔 第12张

....

 

 

小明这次真的是杠上了

 

机器学习识别验证码都搞上了

 

直接在程序自动识别验证码然后进行请求

 

这次小明完全不把小帅b放在眼里了

 

python爬虫10 | 网站维护人员:真的求求你们了,不要再来爬取了!! 随笔 第13张

 

....

 

 

运维人员快要没办法了

 

突然看到了一些大量的请求都只是获取 HTML 数据

 

但是 js 和 css 这些都不请求的

 

不合理

 

于是把整个网站

 

都不直接返回 HTML 了

 

用 ajax 加载

 

.....

 

 

小明呵呵一笑

 

这能难倒我?

 

拿出最近小帅b说的

 

python爬虫09 | 上来,自己动 !这就是 selenium 的牛逼之处

 

直接模仿人类操作

 

这还没完

 

听 小帅b 说还有一个叫做 phantomjs 的玩意

 

selenium + phantomjs 可以达到完全模拟浏览器操作

 

友情提示:小帅b 下篇推文会跟大家说怎么使用selenium + phantomjs

 

....

 

这下

 

运维人员真的没办法了

 

玩不动了

 

只能说一句

 

真的求求你们了,不要再来爬取了!

 

python爬虫10 | 网站维护人员:真的求求你们了,不要再来爬取了!! 随笔 第14张

 

...

 

 

哈~

 

本故事纯属乱吹

 

如有雷同

 

别在意

 

 

最后

 

大家都是程序员

 

不容易

 

别乱搞事情

 

 

python爬虫10 | 网站维护人员:真的求求你们了,不要再来爬取了!! 随笔 第15张

扫一扫

学习 Python 没烦恼

 

python爬虫10 | 网站维护人员:真的求求你们了,不要再来爬取了!! 随笔 第16张

 

 

 

 

python爬虫10 | 网站维护人员:真的求求你们了,不要再来爬取了!! 随笔 第17张

 

扫码关注我们
微信号:SRE实战
拒绝背锅 运筹帷幄