惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

酷 壳 – CoolShell
酷 壳 – CoolShell
H
Hacker News: Front Page
P
Palo Alto Networks Blog
T
ThreatConnect
Apple Machine Learning Research
Apple Machine Learning Research
博客园_首页
T
True Tiger Recordings
P
Privacy & Cybersecurity Law Blog
B
Blog
IT之家
IT之家
Last Week in AI
Last Week in AI
F
Full Disclosure
Hacker News: Ask HN
Hacker News: Ask HN
C
Comments on: Blog
Microsoft Azure Blog
Microsoft Azure Blog
C
Cybersecurity and Infrastructure Security Agency CISA
Microsoft Security Blog
Microsoft Security Blog
博客园 - 【当耐特】
N
News and Events Feed by Topic
NISL@THU
NISL@THU
腾讯CDC
雷峰网
雷峰网
Security Latest
Security Latest
李成银的技术随笔
M
Microsoft Research Blog - Microsoft Research
L
LangChain Blog
L
Lohrmann on Cybersecurity
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
C
Check Point Blog
Y
Y Combinator Blog
Recent Announcements
Recent Announcements
博客园 - Franky
N
News | PayPal Newsroom
V
V2EX
A
About on SuperTechFans
The Register - Security
The Register - Security
月光博客
月光博客
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
Google Online Security Blog
Google Online Security Blog
MyScale Blog
MyScale Blog
Cisco Talos Blog
Cisco Talos Blog
Vercel News
Vercel News
WordPress大学
WordPress大学
C
Cyber Attacks, Cyber Crime and Cyber Security
The Hacker News
The Hacker News
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
爱范儿
爱范儿
A
Arctic Wolf
L
LINUX DO - 最新话题
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More

博客园 - 大汪的数据之路

数据码农马年大吉 字符串分割并展开成表格的SQL实现方法 BI报表及可视化分析类工具使用经验总结(下) BI报表及可视化分析类工具使用经验总结(上) 基于Python实现自动化微信通知和预警 Chat2DB测试体验 常用数据管理工具与平台汇总 OneID系统建设实践总结 网易有数BI使用总结 版本管理总结 程序自动化vs人工手动处理 SQL开发总结 数据平台使用经验 数据团队运维值班任务简介 Python环境安装、管理与部署 windows获取kerberos认证 SQL动态长度行列转置 ODI Scenario 场景 Oracle KEEP 分析函数
网易NDH大数据平台使用经验
大汪的数据之路 · 2025-09-23 · via 博客园 - 大汪的数据之路

网易NDH大数据平台是基于Hadoop、HDFS、Hive、Yarn、Spark、Impala、kerberos等开源组件进行二次开发的大数据套件,具有数据集成、开发运维、规范建模、数据治理、数据服务等功能的一站式数据开发治理平台。

其主要技术架构图如下:

image

 主要功能包括以下:

image

以下是根据实际使用该平台的经验进行的一些总结。

1、自助分析中,既可以查看大数据平台的数据,也可以查看数据源的数据。一般在数据中台或者数据仓库中发现异常数据时,需要直连数据源进行溯源排查。有了该功能,可以无需安装数据源客户端软件,即可写SQL进行排查。但是该功能只支持少量的数据库类型,如Oracle,Mysql等(未来应该会支持越来越多的主流数据库类型)。

2、数据集成在并发量大时会频发异常,比如对Mysql进行采集,同时并发采集5张表,可能会发生数据写入hdfs临时文件load出问题,同时并发量大时也会对源库的读操作产生压力,造成数据库连接中断异常。

3、对大数据平台中的结构化数据进行分析时,优先使用自带的Impala引擎,查询速度快。在进行离线数据任务开发时,优先选择Spark引擎,执行速度快。

4、平台所有的元数据放在自带的Mysql数据库中,因此可以通过SQL语句,查询离线跑批任务的执行情况,如运行开始时间,是否正常等。结合脚本程序,可以对日常跑批自行进行监控提醒。

5、数据地图功能可以方便的查看表的元数据信息,如字段名、字段注释等。数据地图中,可以设置表的主键,但是事实上该主键约束并未生效,主键列仍然可以存放重复值。因此若要写检核程序,判断主键列是否有重复值。

6、离线开发中,除了基础的写SQL,还支持嵌套流、选择节点、轮询节点,这样可以实现复杂的流程控制。另外,还支持调用外部script(shell or perl),此外还支持调用Spark脚本任务(java or python)。

7、离线开发支持“提交上线”功能,这样可以直接基于该套件记录每次的改动,实现版本管理的功能。

8,支持将用户创建的自定义UDF函数,通过将Jar包上传至平台中,完成在UDF studio进行注册登记,后续平台使用者可以直接使用UDF中的函数。

作为公司数据治理及研发人员,在22年参与了网易NDH大数据平台的软件搭建,之后基于该平台进行全司数据资产归集,并针对不同业务主题,开发了多个数据集市供报表及BI访问,同时还开发了数据API服务。整体感觉该平台还是可靠的。平台刚搭建结束进入使用阶段时,会时不时出现一些不稳定不可用问题,后续供应商不断进行升级优化,截止目前,平台的可靠性已经大大的提升。不过目前生产环境中表的最大规模在亿级左右,还未真正在大数据体量下测试过平台。希望未来有机会在真正的大数据场景下体验下大数据平台的厉害。