惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Simon Willison's Weblog
Simon Willison's Weblog
P
Privacy International News Feed
www.infosecurity-magazine.com
www.infosecurity-magazine.com
T
Troy Hunt's Blog
Hacker News - Newest:
Hacker News - Newest: "LLM"
Attack and Defense Labs
Attack and Defense Labs
S
Secure Thoughts
V2EX - 技术
V2EX - 技术
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
O
OpenAI News
Cloudbric
Cloudbric
Google Online Security Blog
Google Online Security Blog
Schneier on Security
Schneier on Security
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
Help Net Security
Help Net Security
Cyberwarzone
Cyberwarzone
G
GRAHAM CLULEY
L
Lohrmann on Cybersecurity
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
Spread Privacy
Spread Privacy
NISL@THU
NISL@THU
N
News and Events Feed by Topic
T
Tenable Blog
S
Security @ Cisco Blogs
N
News and Events Feed by Topic
The Hacker News
The Hacker News
C
CXSECURITY Database RSS Feed - CXSecurity.com
宝玉的分享
宝玉的分享
月光博客
月光博客
酷 壳 – CoolShell
酷 壳 – CoolShell
美团技术团队
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
Google DeepMind News
Google DeepMind News
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
T
Tailwind CSS Blog
V
Visual Studio Blog
P
Proofpoint News Feed
Webroot Blog
Webroot Blog
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
博客园 - 三生石上(FineUI控件)
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
Jina AI
Jina AI
雷峰网
雷峰网
T
The Blog of Author Tim Ferriss
Hugging Face - Blog
Hugging Face - Blog
腾讯CDC
L
LangChain Blog
The Register - Security
The Register - Security
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
博客园 - 聂微东

Spark

求助广大网友 - V2EX 真的深入了解开源项目是动手实现--《Spark Core 精简版》 - V2EX 求助几个 Spark 问题 - V2EX spark 做内容推荐,希望大佬给一些思路上的指导 - V2EX 有没有不错的 SparkStreaming+Kafka 的开源项目可以用来入门和进阶? - V2EX spark 大数据离线分析 爬虫存到 csv 有的列是长度不固定的 list 请问应该怎么存到 hive?直接存 list 吗?该怎么分析呢? - V2EX PayPal 招 资深大数据工程师 啦 - 技术栈: Spark, Scala, Java , Python 等 - V2EX 关于 Spark Task 的疑问 - V2EX 有没有在滴滴或者其他网约车公司的同学,请教一个数据量的问题 - V2EX spark 作业求助,剔除空值大于三的行 - V2EX spark 有用 kotlin 写代码的吗? - V2EX 现在写 spark 程序,都是用 scala 吗 - V2EX spark 核心构件之 Dependency 宽窄依赖 - V2EX spark 内存管理的实现 spark 源码研究 - V2EX spark straming。submit Python 脚本报错。 - V2EX CPython, PyPy 和 Scala 在 Spark 平台上的性能对比 - V2EX Spark/Scala 的细节讨论:在 map task 里的 map 会得到如何的处理? - V2EX SPARK 文档查询好费劲 - V2EX Apache Spark 之间的共享项目配置文件问题 疑问:spark对于迭代运算场景很有优势,那对于迭代不严重的计算场景呢? - V2EX First Steps with Spark – Screencast #1 - V2EX
Spark 解析复杂 xml,数据如何映射到多表中 - V2EX
bluehtt · 2021-09-01 · via Spark

bluehtt

 

bluehtt · 2021 年 9 月 1 日 · 2001 次点击

这是一个创建于 1747 天前的主题,其中的信息可能已经有所发展或是发生改变。

需求:利用 Spark 解析 xml 文件,xml 结构最大深度有 8 层,数据有复杂的关联关系,处理后会插入到 20 多张表中。由于使用工具解析后的 DataFrame 结构过长,简单截取了一部分如下:

simple dataFrame

目前没有好的思路,就是获取每一列元素依次遍历提取出所有需要的元素,但是想到要遍历 8 层眼泪都要流下来了:

// 层层对象遍历
val identifiers = row.get(0).asInstanceOf[Row].get(0).asInstanceOf[Row].get(0).asInstanceOf[Row].get(0)
// 解析数组
println(identifiers.asInstanceOf[mutable.WrappedArray[AnyRef]](0))

就以图示中的结构来说,数据不算复杂,但是完整的结构实在是令人神伤,贴了图恐怕会占据整个页面。另外最终要插入的 20 多张表中十几张是关联表。 初次使用 Spark 处理数据,求大家给点意见和思路,万分感谢!