004 使用scrapy框架爬虫

佚名 7年前 (2019-04-15) 随笔 988人围观抢沙发百度已收录

0. 建立housePro的scrapy爬虫框架

# 1. 在终端输入，建立housePro项目
scrapy startproject housePro
# 2. 进入housePro
cd housePro
# 3. 建立爬虫文件
scrapy genspider house www.xxx.com
# 4. 执行程序
scrapy crawl house

1. 用scrapy爬取网站信息

SRE实战互联网时代守护先锋，助力企业售后服务体系运筹帷幄！一键直达领取阿里云限量特价优惠。

li_list = response.xpath('//div[@class="list_wrap"]/ul')
        for li in li_list:
            li = li.xpath('./li//h1/a/text()').extract()  # 要用extract()函数提取data数据
            print(li)