【二】Spark 核心

推荐订阅源

WordPress大学

The GitHub Blog

Fortinet All Blogs

Cloudbric

Palo Alto Networks Blog

雷峰网

CERT Recently Published Vulnerability Notes

cs.CL updates on arXiv.org

Proofpoint News Feed

Arctic Wolf

Cyber Security Advisories - MS-ISAC

Google DeepMind News

Vulnerabilities – Threatpost

Cybersecurity and Infrastructure Security Agency CISA

MongoDB | Blog

aimingoo的专栏

Kaspersky official blog

Jina AI

News | PayPal Newsroom

The Blog of Author Tim Ferriss

DataBreaches.Net

About on SuperTechFans

cs.AI updates on arXiv.org

Secure Thoughts

TaoSecurity Blog

Privacy & Cybersecurity Law Blog

IT之家

Threat Research - Cisco Blogs

Y Combinator Blog

博客园 - Lil-K

VM-16-pro 安装Centos Stream 9 spring-cloud-alibaba-整合spring-cloud-gateway-3.1.4 基于CentOS7.x安装Nginx-1.18.0 Nginx在Windows下的基本介绍安装以及基本使用 window7下 cmd命令行 Mysql导出表结构 + 表数据【一】Spark基础【八】将日志写入log(glog) - Lil-K - 博客园【七】ab压测【六】tf和cgi进行联合试验，完成日志服务器 - Lil-K - 博客园【五】安装fcig - Lil-K - 博客园【四】搭建Nginx服务器 - Lil-K - 博客园【三】多语言互通 - Lil-K - 博客园【二】调通单机版的thrift-C++版本 - Lil-K - 博客园【一】调通单机版的thrift-python版本 - Lil-K - 博客园 Spark在实际项目中分配更多资源 - Lil-K - 博客园 Spark实际项目中调节并行度 - Lil-K - 博客园 IDEA中大小写转换快捷键使用maven下载cdh版本的大数据jar包【Hive六】Hive调优小结 - Lil-K - 博客园

【二】Spark 核心

Lil-K · 2018-08-15 · via 博客园 - Lil-K

spark 核心

spark core

RDD创建 >>> RDD转换 >>> RDD缓存 >>> RDD行动 >>> RDD输出

RDD[Resilient Distributed Dataset]

它是一个弹性分布式数据集,具有良好的通用性、容错性与并行处理数据的能力，为用户屏蔽了底层对数据的复杂抽象和处理,为用户提供了一组方便的数据转换与求值方法。

弹性
- 存储弹性：n内存与磁盘d额自动切换
- 容错弹性：数据丢失可以自动恢复
- j计算的弹性：计算出错重试机制
- 分片弹性：根据需要重新分片
容错
- 通常在不同机器上备份数据或者记录数据更新的方式完成容错，但这种对任务密集型任务代价很高
- RDD采用数据应用变换（map,filter,join），若部分数据丢失，RDD拥有足够的信息得知这部分数据是如何计算得到的，可通过重新计算来得到丢失的数据
- 这种恢复数据方法很快，无需大量数据复制操作，可以认为Spark是基于RDD模型的系统
懒操作
- 延迟计算，action的时候才操作
瞬时性
- 用时才产生，用完就释放

Spark允许从以下四个方面构建RDD

从共享文件系统中获取，如从HDFS中读数据构建RDD

val RDD = sc.textFile(“/xxx/yyy/file”)

通过现有RDD转换得到

val RDD = a.map(x => (x, 1))

定义一个scala数组

val RDD = sc.parallelize(1 to 10, 1)

有一个已经存在的RDD通过持久化操作生成

val RDD = a.persist(), a. saveAsHadoopFile(“/xxx/yyy/zzz”)

Spark针对RDD提供两类操作：transformations和action

transformations是RDD之间的变换，action会对数据执行一定的操作
transformations采用懒策略，仅在对相关RDD进行action提交时才触发计算

每个RDD包含了数据分块/分区（partition）的集合，每个partition是不可分割的

实际数据块的描述（实际数据到底存在哪，或者不存在）
其值依赖于哪些partition

与父RDD的依赖关系（rddA=>rddB）

宽依赖:B的每个partition依赖于A的所有partition
- 比如groupByKey、 reduceByKey、 join……，由A产生B时会先对A做shuffle分桶
窄依赖： B的每个partition依赖于A的常数个partition
- 比如map、 filter、 union……

RDD 依赖关系

窄依赖

每一个父RDD的Partition最多被子RDD的一个Partition使用

宽依赖

多个RDD的partition会依赖同一个父RDD的partition，会引起shuffle

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。