【SparkStreaming学习之一】 SparkStreaming初识

佚名 7年前 (2019-04-18) 随笔 1150人围观抢沙发百度已收录

环境
　　虚拟机：VMware 10
　　Linux版本：CentOS-6.5-x86_64
　　客户端：Xshell4
　　FTP：Xftp4
　　jdk1.8
　　scala-2.10.4(依赖jdk1.8)
　　spark-1.6

一、SparkStreaming简介
SparkStreaming是流式处理框架，是Spark API的扩展，支持可扩展、高吞吐量、容错的实时数据流处理，实时数据的来源可以是：Kafka, Flume, Twitter, ZeroMQ或者TCP sockets，并且可以使用高级功能的复杂算子来处理流数据。例如：map,reduce,join,window 。最终，处理后的数据可以存放在文件系统，数据库等，方便实时展现。

SRE实战互联网时代守护先锋，助力企业售后服务体系运筹帷幄！一键直达领取阿里云限量特价优惠。

二、SparkStreaming与Storm的区别

1、Storm是纯实时的流式处理框架（扶梯），SparkStreaming是准实时的处理框架（微批处理-电梯）。因为微批处理，SparkStreaming的吞吐量比Storm要高。
2、Storm 的事务机制要比SparkStreaming的要完善。
3、Storm支持动态资源调度。(spark1.2开始和之后也支持)
4、SparkStreaming擅长复杂的业务处理，Storm不擅长复杂的业务处理，擅长简单的汇总型计算。

整体而言速度比storm要快，目前新项目一般选择SparkStreaming多一些，具体选择还要看应用场景

参考：
Spark