1.三大弹性数据集介绍

1)概念

SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。

新闻网大数据实时分析可视化系统项目——17、Spark2.X分布式弹性数据集 随笔 第1张

2)优缺点对比

新闻网大数据实时分析可视化系统项目——17、Spark2.X分布式弹性数据集 随笔 第2张

新闻网大数据实时分析可视化系统项目——17、Spark2.X分布式弹性数据集 随笔 第3张

新闻网大数据实时分析可视化系统项目——17、Spark2.X分布式弹性数据集 随笔 第4张

2.Spark RDD概述与创建方式

1)概述

在集群背后,有一个非常重要的分布式数据架构,即弹性分布式数据集(resilientdistributed dataset,RDD),它是逻辑集中的实体,在集群中的多台机器上进行了数据分区。RDD是Spark的核心数据结构,通过RDD的依赖关系形成Spark的调度顺序。 通过对RDD的操作形成整个Spark程序。

2)创建方式

a)创建方式一

val data = Array(1, 2, 3, 4, 5)

val distData = sc.parallelize(data)

b)创建方式二

scala> val distFile = sc.textFile("data.txt")

distFile: org.apache.spark.rdd.RDD[String] = data.txt MapPartitionsRDD[10] at textFile at < console >:26

3.spark RDD 五大特性

新闻网大数据实时分析可视化系统项目——17、Spark2.X分布式弹性数据集 随笔 第5张

4.spark RDD操作方式

1)RDD是一个懒执行,直到Action阶段才会真正执行。

新闻网大数据实时分析可视化系统项目——17、Spark2.X分布式弹性数据集 随笔 第6张

2)RDD三大操作

新闻网大数据实时分析可视化系统项目——17、Spark2.X分布式弹性数据集 随笔 第7张

a)Transfamation 函数

新闻网大数据实时分析可视化系统项目——17、Spark2.X分布式弹性数据集 随笔 第8张

b)Action函数

新闻网大数据实时分析可视化系统项目——17、Spark2.X分布式弹性数据集 随笔 第9张

c)具体使用

新闻网大数据实时分析可视化系统项目——17、Spark2.X分布式弹性数据集 随笔 第10张

5.DataFrame创建方式与功能

1)什么是DataFrame

新闻网大数据实时分析可视化系统项目——17、Spark2.X分布式弹性数据集 随笔 第11张

2)DataFrame与RDD对比

新闻网大数据实时分析可视化系统项目——17、Spark2.X分布式弹性数据集 随笔 第12张

3)DataFrame与DataSet对比

新闻网大数据实时分析可视化系统项目——17、Spark2.X分布式弹性数据集 随笔 第13张

4)创建方式一:RDD转换DataFrame

新闻网大数据实时分析可视化系统项目——17、Spark2.X分布式弹性数据集 随笔 第14张

5)创建方式一:DataSet转换DataFrame

新闻网大数据实时分析可视化系统项目——17、Spark2.X分布式弹性数据集 随笔 第15张

6.DataSet创建方式及功能

DataSet创建方式

新闻网大数据实时分析可视化系统项目——17、Spark2.X分布式弹性数据集 随笔 第16张

7.Spark2.X源码分析

下载Spark2.2-src源码包,解压之后导出idea工具即可。

8.数据集之间的对比和转换

1)RDD与DataSet数据操作方式

新闻网大数据实时分析可视化系统项目——17、Spark2.X分布式弹性数据集 随笔 第17张

新闻网大数据实时分析可视化系统项目——17、Spark2.X分布式弹性数据集 随笔 第18张

新闻网大数据实时分析可视化系统项目——17、Spark2.X分布式弹性数据集 随笔 第19张

新闻网大数据实时分析可视化系统项目——17、Spark2.X分布式弹性数据集 随笔 第20张

新闻网大数据实时分析可视化系统项目——17、Spark2.X分布式弹性数据集 随笔 第21张

新闻网大数据实时分析可视化系统项目——17、Spark2.X分布式弹性数据集 随笔 第22张

新闻网大数据实时分析可视化系统项目——17、Spark2.X分布式弹性数据集 随笔 第23张

新闻网大数据实时分析可视化系统项目——17、Spark2.X分布式弹性数据集 随笔 第24张

2)转换操作

DataFrame/DataSet转RDD

新闻网大数据实时分析可视化系统项目——17、Spark2.X分布式弹性数据集 随笔 第25张

分组排序

新闻网大数据实时分析可视化系统项目——17、Spark2.X分布式弹性数据集 随笔 第26张

 

扫码关注我们
微信号:SRE实战
拒绝背锅 运筹帷幄