python爬虫匹配实现步骤

佚名 7年前 (2019-05-10) 随笔 1262人围观抢沙发百度已收录

import requests,re
url='https://movie.douban.com/top250'
urlcontent=requests.get(url).text
#正则
'''
实现步骤:
1,先逐个匹配字段
2.对各个字段正则进行拼接
3,实现整体抓取
id:.*?(\d+)</em.*?
title:'title.*?>(.*?)<'
rat:.*?average.*?(\d+.\d).*?
comment_num:.*?(\d+)人.*
'''
com=re.compile('.*?(\d+)</em.*?title.*?>(.*?)<.*?average.*?(\d+.\d).*?(\d+)人',re.S)
ret=com.finditer(urlcontent)
for i in ret:
    print({'id':i.group(1),'title':i.group(2),'rat':i.group(3),'comment_num':i.group(4)})