惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

L
LINUX DO - 热门话题
Stack Overflow Blog
Stack Overflow Blog
B
Blog
WordPress大学
WordPress大学
Project Zero
Project Zero
P
Palo Alto Networks Blog
阮一峰的网络日志
阮一峰的网络日志
博客园 - 司徒正美
有赞技术团队
有赞技术团队
S
SegmentFault 最新的问题
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
小众软件
小众软件
T
Tailwind CSS Blog
Forbes - Security
Forbes - Security
F
Full Disclosure
SecWiki News
SecWiki News
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
Hacker News: Ask HN
Hacker News: Ask HN
C
Check Point Blog
Microsoft Security Blog
Microsoft Security Blog
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
F
Fortinet All Blogs
Cisco Talos Blog
Cisco Talos Blog
G
Google Developers Blog
J
Java Code Geeks
Google DeepMind News
Google DeepMind News
人人都是产品经理
人人都是产品经理
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
Recorded Future
Recorded Future
O
OpenAI News
Spread Privacy
Spread Privacy
MongoDB | Blog
MongoDB | Blog
H
Hackread – Cybersecurity News, Data Breaches, AI and More
C
Cybersecurity and Infrastructure Security Agency CISA
S
Securelist
V
Vulnerabilities – Threatpost
Y
Y Combinator Blog
IT之家
IT之家
U
Unit 42
腾讯CDC
S
Security Affairs
C
Cisco Blogs
Schneier on Security
Schneier on Security
The Last Watchdog
The Last Watchdog
B
Blog RSS Feed
宝玉的分享
宝玉的分享
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
S
Security @ Cisco Blogs
Cyberwarzone
Cyberwarzone
T
The Blog of Author Tim Ferriss

Spark

求助广大网友 - V2EX 求助几个 Spark 问题 - V2EX spark 做内容推荐,希望大佬给一些思路上的指导 - V2EX 有没有不错的 SparkStreaming+Kafka 的开源项目可以用来入门和进阶? - V2EX Spark 解析复杂 xml,数据如何映射到多表中 - V2EX spark 大数据离线分析 爬虫存到 csv 有的列是长度不固定的 list 请问应该怎么存到 hive?直接存 list 吗?该怎么分析呢? - V2EX PayPal 招 资深大数据工程师 啦 - 技术栈: Spark, Scala, Java , Python 等 - V2EX 关于 Spark Task 的疑问 - V2EX 有没有在滴滴或者其他网约车公司的同学,请教一个数据量的问题 - V2EX spark 作业求助,剔除空值大于三的行 - V2EX spark 有用 kotlin 写代码的吗? - V2EX 现在写 spark 程序,都是用 scala 吗 - V2EX spark 核心构件之 Dependency 宽窄依赖 - V2EX spark 内存管理的实现 spark 源码研究 - V2EX spark straming。submit Python 脚本报错。 - V2EX CPython, PyPy 和 Scala 在 Spark 平台上的性能对比 - V2EX Spark/Scala 的细节讨论:在 map task 里的 map 会得到如何的处理? - V2EX SPARK 文档查询好费劲 - V2EX Apache Spark 之间的共享项目配置文件问题 疑问:spark对于迭代运算场景很有优势,那对于迭代不严重的计算场景呢? - V2EX First Steps with Spark – Screencast #1 - V2EX
真的深入了解开源项目是动手实现--《Spark Core 精简版》 - V2EX
winchang · 2022-08-13 · via Spark

看了许利杰老师的这本书,老师在理论层面讲的比较清楚了,读起来也容易理解,但看完但总是感觉还差点什么。于是动手起了个项目,定了个小目标:实现 RDD 的逻辑。

目前 RDD 的 MVP 已经完成,最大的收获是彻底理解了几个费解的问题:

1 ,Stage 的切分原理,为什么要这么做

2 ,Shuffle 是如何实现的,write/read 是如何衔接

3 ,Partition 为何如此的重要

有兴趣的同学一起 github 交个朋友吧,项目地址 https://github.com/changzhiwin/spark-core-analysis ,特点:

1 ,聚焦在 RDD 层面(这是 Spark 的根本)

2 ,入门明确,代码量小(保留逻辑),容易上手运行(运行起来,理解代码就容易了)