资讯爬虫方案

方案一:拿来方式采集资讯

SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。
  • 方案
    • 寻找现有的爬虫程序、软件或平台。
  • 具体内容
    • 寻找现有的爬虫程序、软件或平台:能满足添加URL规则,运行爬虫自动下载满足URL规则的页面。
    • 寻找页面解析转化程序、软件或平台:能设置过滤规则和转化规则能将爬虫下载的页面内容进行过滤或转化后再手机端自适应展示。
  • 具体方式
    • Github查找:github.com输入crawl或者spider搜索爬虫程序;优先查阅排名靠前的程序;读README.md,初步判断是否达到要求;本地安装试运行,确认是否满足要求。
    • BAT开放平台查找:去阿里云平台、百度开放平台、腾讯相关平台、谷歌平台查找是否有满足要求的爬虫程序、软件或平台。
  • 优点
    • 平台级复用,无需开发,工作效率高。
    • 平台级复用,避免编码,不易出现BUG。
  • 缺点
    • 不针对特定需求,不方便解决特定的需求及需求变更,不能满足所有的需求。

方案二:开发方式采集资讯

  • 方案
    • 针对具体的数据源网站进行编码采集资讯,相同逻辑工具级复用,不同数据源抓取针对性采集。
  • 具体内容
    • 配置目标资源URI,定义采集字段,并编写抓取代码(针对性)。 将采集的字段持久化存储(通用性)。
  • 优点
    • 满足需求变更,满足所有需求。
  • 缺点
    • 需要开发,工作效率低。
    • 需要开发,容易出现BUG。

 

工作计划

工作项目  工作内容  时间段  
 初步查找程序、软件、平台  初步筛选至少3个能满足需求的程序、软件、平台,进行试运行  2019-4-11至2019-4-15  
 最终确定选型  最终得到能最好满足需求的程序、软件、平台  2019-4-16至2019-4-18  

 

扫码关注我们
微信号:SRE实战
拒绝背锅 运筹帷幄