惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

V2EX - 技术
V2EX - 技术
L
LangChain Blog
IT之家
IT之家
S
SegmentFault 最新的问题
博客园 - 三生石上(FineUI控件)
H
Hackread – Cybersecurity News, Data Breaches, AI and More
T
The Blog of Author Tim Ferriss
Blog — PlanetScale
Blog — PlanetScale
N
Netflix TechBlog - Medium
U
Unit 42
B
Blog RSS Feed
GbyAI
GbyAI
Microsoft Security Blog
Microsoft Security Blog
博客园 - 司徒正美
Apple Machine Learning Research
Apple Machine Learning Research
T
Threatpost
C
CERT Recently Published Vulnerability Notes
Cisco Talos Blog
Cisco Talos Blog
The Register - Security
The Register - Security
Vercel News
Vercel News
S
Schneier on Security
Spread Privacy
Spread Privacy
C
Cyber Attacks, Cyber Crime and Cyber Security
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
博客园 - 叶小钗
雷峰网
雷峰网
博客园_首页
人人都是产品经理
人人都是产品经理
P
Palo Alto Networks Blog
The Hacker News
The Hacker News
T
Tor Project blog
L
Lohrmann on Cybersecurity
Know Your Adversary
Know Your Adversary
D
Darknet – Hacking Tools, Hacker News & Cyber Security
C
Cybersecurity and Infrastructure Security Agency CISA
P
Privacy International News Feed
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
T
Tenable Blog
V
Vulnerabilities – Threatpost
大猫的无限游戏
大猫的无限游戏
博客园 - 【当耐特】
V
V2EX
Security Latest
Security Latest
A
About on SuperTechFans
Cloudbric
Cloudbric
S
Security Affairs
MongoDB | Blog
MongoDB | Blog
Y
Y Combinator Blog
Martin Fowler
Martin Fowler
TaoSecurity Blog
TaoSecurity Blog

人人都是产品经理

为什么你的产品找不到差异化?90%的失败都卡在第一步上(下) – 人人都是产品经理, 3年从30万到1300万用户、获2200万美元融资,这个AI教育产品用“抽卡”破解了获客难题 – 人人都是产品经理, 园区招商系统怎么做才能真正帮到去化?我加了这一个功能,推广链接转发400次阅读过万 – 人人都是产品经理, AI大事件:OpenAI发完网络安全模型又搞药物研发,小鹏汽车要抓”DeepSeek时刻” – 人人都是产品经理, 电商不是卖货,是一场更残酷的产品经理实战 – 人人都是产品经理, 没想到,活动营销又回来了! – 人人都是产品经理, 为何All-in海外KOC:一场关于AI时代窗口期的豪赌 – 人人都是产品经理, 重新理解企业的内部协作 – 人人都是产品经理, 苹果的 AI 战略到底是什么? – 人人都是产品经理, 医疗智能体·第2讲——合规护城河:等保、PIPL与HIPAA的架构实战 – 人人都是产品经理, 向量知识库五步法:从“答非所问”到“精准回复” – 人人都是产品经理, 鸿蒙PC三方库构建总指挥HPKBUILD(sha)库为例 – 人人都是产品经理, 何时该用LLM?AI产品经理的LLM设计指南 – 人人都是产品经理, 医疗信息领域的需求方、决策方、准入方以及关注点(二) – 人人都是产品经理, 即梦涨价:一场被误读的「傲慢」 – 人人都是产品经理, 面试AI PM必答题:Hermes和OpenClaw的区别,如何讲清楚业务价值 – 人人都是产品经理, AI的下一张船票:世界模型——AI产品经理必须理解的技术拐点 – 人人都是产品经理, 小红书做GEO,怎么让AI信你?记住这 3 个重要信息 – 人人都是产品经理, 5 家印度 AI 初创公司,看看印度 AI 再做什么 – 人人都是产品经理, AI项目跨团队协作:产品技术业务如何不打架 – 人人都是产品经理, Agentic Workflow(智能体工作流):让AI从”答案生成器”变成”数字员工” – 人人都是产品经理, lycium_plusplus 项目全景解读:OpenHarmony 三方库构建的“大管家” – 人人都是产品经理, 从爆单救火到前置履约:两套预采策略,把生鲜大促履约效率拉满 – 人人都是产品经理, 什么时候该补货?我用一轮数据做了一个决定 – 人人都是产品经理, 从“机械兜底”到“动态分流”:AI客服重复进线治理的4大底层逻辑 – 人人都是产品经理, 抖音拼效率,红书拼洞察 – 人人都是产品经理, 全民狂欢与退潮——为什么龙虾这波热潮冷却得如此之快? – 人人都是产品经理, Stripe押注!MPP重塑全球支付 – 人人都是产品经理, 小红书GEO:AI引用你的内容,不是因为你对,而是因为你看起来可信 – 人人都是产品经理, 前百度副总裁押注办公Agent,日韩付费爆发,Manus迎来强劲对手 – 人人都是产品经理, 企事业单位数字化的业务供需本质 – 人人都是产品经理, 医疗智能体·第1讲——医疗信息化重构:从“辅助软件”到“自主智能体”的范式转移 – 人人都是产品经理, 粉丝量就是空气!!! – 人人都是产品经理, 用户说“薯片碎了”,机器回“要买吗?”:意图识别的翻车与破局 – 人人都是产品经理, RAG召回准确率从75到90 我做对了这三件事 – 人人都是产品经理, AI大事件:Anthropic改收费、OpenAI发安全版、手术机器人纳入医保、阿里发布”秒悟” – 人人都是产品经理, Chrome 推出 Skills 新功能,Agent 重塑上网方式 – 人人都是产品经理, GitHub前创始人拿了a16z的1700万美元,做Agent时代的Git – 人人都是产品经理 拷贝或克隆其他 Flutter OH 项目到本地后无法运行 – 人人都是产品经理, 优惠券设计:优惠券创建 – 人人都是产品经理, 不用死磕文档!AI 助手 1 小时搞定飞书 CLI 安装 + 配置 + 知识库 – 人人都是产品经理, 用小龙虾做竞品分析报告:从2天到20分钟,我是怎么做到的 – 人人都是产品经理 用小龙虾做市场分析报告:搞懂这3个公式,市场规模不再靠猜 – 人人都是产品经理, 你早就在做 Harness 工程,只是不知道它叫这个名字 – 人人都是产品经理, Think Long就够?你可能想多了! – 人人都是产品经理, 货代SRM实战:供应商准入怎么做,才能让资源池不是通讯录而是可交付网络? – 人人都是产品经理, 如何做好用户调研?详解基本技巧 – 人人都是产品经理, 木鸟、途家、美团对打,平台春天行动开“卷” – 人人都是产品经理, 入职才发现公司不靠谱?小红书从业者求职避坑指南 – 人人都是产品经理, 美国 AI 三巨头联手封堵,中国 AI 突围之路在何方 – 人人都是产品经理, 小红书,放在需求对面的镜子 – 人人都是产品经理, AI 会带来大规模失业吗? – 人人都是产品经理, 从出单到补货前,我第一次犹豫:该不该放大? – 人人都是产品经理, Flutter 三方库鸿蒙化适配:5 种高效检查方式,快速判断是否需要适配 – 人人都是产品经理, 从做产品进阶拿结果:医美机构产品经理转岗科室运营经理 – 人人都是产品经理, 阿里HappyHorse,一场关于“Token经济”的阳谋 – 人人都是产品经理, To B AI:客户留存落地的观察与思考 – 人人都是产品经理, AI产品的“生命线”——数据采集、标注、清洗的产品化设计 – 人人都是产品经理, 谈谈AI Agent(二):当“孩子”能自己“体验世界”时,你该学什么? – 人人都是产品经理, UI/UX设计师的3层能力进阶,前两层让你活下来,第三层…才是真正的分水岭 – 人人都是产品经理, 2分钟 → 30秒,效率提升75%:B端产品经理如何用「规则枷锁」驯服AI幻觉? – 人人都是产品经理, 还没来得及学OpenClaw,来了个更猛的:Hermes Agent – 人人都是产品经理, AI日报:宇树机器人跑出10m/s刷新世界纪录 – 人人都是产品经理, 一文说透基金互金如何用情绪价值引导用户决策做转化 – 人人都是产品经理, 当浏览器开始替你”看”网页:AI 浏览器正在亲手拆掉它脚下的那张网 – 人人都是产品经理, 0代码,一天时间我Vibe Coding了个网站 – 人人都是产品经理, Hermes 和 OpenClaw 之争,Agent 的能力应该“装上去”还是“长出来”? – 人人都是产品经理 视频生成的“桌子”,字节Seedance 2掀完,阿里快乐马掀 – 人人都是产品经理, 从听不懂到完全信任:我的 Codex 深度产品体验 – 人人都是产品经理, 当虚拟偶像有了北京户口,与真人偶像还有什么区别? – 人人都是产品经理, 会说,远远比会做更重要 —— 对 SBTI 爆火现象的五层观察 – 人人都是产品经理, AI产品经理必看:当“搭环境”比“选模型”更重要,你的认知还在2024年吗? – 人人都是产品经理, 2026年AI产品商业化核心逻辑:从功能demo到规模化营收的3个必破卡点 – 人人都是产品经理, 京东围绕供应链,卷起裤腿下场的那些事儿 – 人人都是产品经理, SBTI一夜刷屏:它赢在了“太会说人话” – 人人都是产品经理, 折扣零售的真相:不是便宜,而是价值感! – 人人都是产品经理, 和甲方吵了一架,最后加钱做了——我学到的ToB产品经理生存法则 – 人人都是产品经理, 和几位小红书操盘手聊了8小时,干货全在这 – 人人都是产品经理, 智谱GLM-5.1登场,开源模型首超Opus4.6!!! – 人人都是产品经理 Anthropic收入凭什么反超OpenAI,终于有人把这事说清楚了 – 人人都是产品经理, 史上最有故事感的技术报告——Claude最强模型Mythos 7个极其精彩的细节 – 人人都是产品经理, 模型不是壁垒,Harness 也不是 – 人人都是产品经理, 抖音本地生活业务思考21 – 人人都是产品经理, Superpowers:145k Star的AI编码框架,到底是什么来头? Superpowers:145k Star的AI编码框架,到底是什么来头? – 人人都是产品经理, OpenAI 的路走错了,Anthropic Harness 解法启示:模型需要实践专科生 – 人人都是产品经理, 画原型图的前一步:设计站点地图 – 人人都是产品经理, 给 DeepSeek 的最后一封催更信 – 人人都是产品经理, 手把手教你用 Claude Code 搭建 AI 营销团队:5 个 Agent、12 项技能,独立完成研究、写作、设计全流程 – 人人都是产品经理, 你以为大模型在学语言?不,它在重新发明语言学 – 人人都是产品经理 所谓Skill,不过是AI时代的工业垃圾 – 人人都是产品经理, 聊一聊内容传播的几个方法 – 人人都是产品经理, 当平台开始吃掉生态:从 OpenClaw 被封杀,读懂 Anthropic 的这盘棋 – 人人都是产品经理, 你装了 10 个 AI 插件,Obsidian 还是一个文件夹 – 人人都是产品经理 关于AI智能体架构演进的系统性思考:从单体试水到多体协同的重构 – 人人都是产品经理, 当“人”变成Skill,我们又该何去何从? – 人人都是产品经理 Mythos 事件:前沿 AI 治理的意外实验 – 人人都是产品经理, 货代CRM:信用与风险管理怎么做,才能把坏账风险拦在放货之前? – 人人都是产品经理, 从HR收集自拍照到员工自助录入——我见证了园区人脸识别从”不可用”到”真好用”的全过程 – 人人都是产品经理 千问闯关AI混沌期:阿里画靶,吴嘉张弓,马云射箭? – 人人都是产品经理,
数据的搬运工——数据集成
数据小吏 · 2024-01-15 · via 人人都是产品经理

大数据平台并不生产数据,大多数原始数据其实都来源于业务系统,所以,我们需要做好数据“搬运”动作。而这就牵扯到了“数据集成”这个概念。这篇文章里,作者就谈了谈他的见解和感受,一起来看看吧。

我不生产数据,我只是数据的搬运工。

在大数据平台中,是不生产数据的,或者说原始数据都是来源于业务系统。所以,我们需要做的第一件事,就是将业务系统的数据搬运到数据平台。

改用那句耳熟能详的话,我不生产数据,我只是数据的搬运工。这个数据的搬运工,就是数据平台的第一个模块——数据集成。

一、搬运工都有哪些称呼

在进行产品设计的过程中,对于同一个产品,经常会遇到各种各样的名称,这些名称好像可以指代同一个产品,如果细究起来,好像也有些区别。

在数据集成产品设计时,也会遇到类似的问题。这些相同的名称主要是数据集成、数据同步、数据采集。有时候也可能听到数据管道、数据传输等等。

我通过大模型搜索了一下区别。

💡 数据集成:指的是将不同数据源、不同数据类型以及不同格式的数据整合到一起,形成一个统一的数据视图或数据仓库,以便后续的分析和处理。数据集成通常涉及到数据的抽取、转换、清洗和加载等多个步骤,同时也需要解决数据格式转换、数据质量问题以及数据安全性等问题。

数据同步:则是将数据从一个数据源复制或传输到另一个数据源,以保持两个数据源中的数据一致性。数据同步通常涉及到实时或准实时的数据传输和复制,可以用于分布式系统中的数据复制、备份以及容灾等场景。

似乎,数据集成更注重数据的整合和数据处理,而数据同步更注重数据的传输和一致性。

💡 在大数据领域,数据采集和数据集成是两个密切相关的概念,但它们在数据处理过程中扮演的角色和目的有所不同。

数据采集主要是通过工具或技术,从系统外部获取数据并输入到系统内部的过程。它可以是手工的,也可以是自动化的。在这个过程中,获取的数据可能需要进行清洗、格式转换等预处理,以便后续的数据集成和使用。

数据集成则是将不同来源、不同格式、不同性质的数据在逻辑上或物理上有机地集中起来,形成一个全面、统一的数据视图或数据仓库的过程。数据集成通常涉及到数据的抽取、转换、清洗和加载等多个步骤,它的主要目的是为企业提供全面的数据共享和数据分析能力。

因此,可以说数据采集是数据集成的基础和前提,数据集成则是数据采集的后续处理和结果。没有数据采集,数据集成就缺乏数据来源;没有数据集成,则无法有效利用和管理大数据资产

在这个定义里面数据采集是数据集成之前的一个步骤。个人感觉在实时领域是这样的,实时获取到数据的变更相当于数据的采集。

以上都是通过大语言模型给出的结论。对这些名称有一个基本概念之后,结合实际的公司习惯、部门历史使用习惯、以及上下文语境来做具体的区分。

个人习惯数据集成和数据同步这两个词大部分情况下会混用。如果要做区分的话,当有向导式和拖拽式两种形式的时候。拖拽式的可以称之为数据集成,因为拖拽式的重数据的转换和整合。向导式的可以称之为数据同步,因为向导式的重数据的传输和一致性。而数据采集,个人相对混用少些,个人主要理解为将数据库的变化采集上来。

再次说明,完全是个人角度的划分。

二、搬运过程中的处理

在进行数据同步的过程中,需不需要进行处理,虽然数据同步常常和**ETL(提取(extract)、转换(transform)、加载(load))**放在一起做比较,但是实际上是不是需要在同步过程中进行转换是可以进行商榷的。

1. 一比一同步

同步数据的目的是保留业务的数据历史,如果要保留历史那么错误的历史也是历史。所以这种同步就是完全和业务系统数据一比一的同步,即使同步过来的数据是有异常的或者说不标准的。只有这样才能真正的如实的保留了业务的历史,当发生数据异常进行数据追溯的时候,才能够找到最原始的业务数据。

个人认为这个想法很好,能够完全的保留业务历史数据。但是有一个问题就是错误的数据业务系统可以随时改的。但是在离线场景下的同步不会随时进行的。而且感觉这种太极端,对人员,程序要求都比较高。

2. 在同步过程中进行转换清洗

第二种就显的要求没有那么的严格,相对宽松些。可以在这个过程中进行行级别的增减、规范化。也可以进行字段的聚合、关联、转换等等操作。

其实对产品设计来说,支持了这种形式,就支持了一比一的同步。在同步过程中有这个转换、聚合的能力,不使用的话就是一比一同步了。这样说来一比一同步更多的似乎是一个规范、一个要求。

三、搬运的目标表类型

将业务数据搬运到数据平台的目标就是保留历史、做到数据可追溯。但是业务系统的数据是时时都在变化的,那么怎么保留变化的数据的历史就是一个目标表建表结构的问题。

这其实算是数据仓库建模领域的内容,为什么在这里说?先说一下目标表常见的几种形式。全量表、切片表、拉链表。

1. 全量表

全量表和名字一样,就是数据全量同步到目标端。试用于同步码表等数据变动不大的表。

2. 切片表

切片表又分为增量切片,和全量切片。全量切片就是将每天的全量业务数据放在当天分区中。增量切片就是仅仅把当天的增量放在当天的分区中。

3. 拉链表

拉链表式最复杂的。需要有一个唯一键,需要知道业务数据是否变化,变化之后,就在目标表中新增一条,记录变化数据的开始时间、结束时间,有的还会有版本、是否当前状态等字段(拉链表也依赖于同步的时间粒度,细于时间粒度,可能会存在无法将数据同步到目标端情况)。

为什么要在这里说,因为数据集成产品需要在功能上支持这些目标表的建表类型。全量表的全量同步。切片表的增量切片,需要能够过滤出来每日的增量数据。拉链表的复杂逻辑,是否需要进行逻辑固化(我只在Powercenter中看到过拉链表的逻辑固化。自己也设计过向导式的拉链表逻辑固化)。这些都需要在数据同步过程中考虑到。不仅仅能够将数据搬运到目标端,而且还需要以一种合理的目标端表结构需要将数据搬运到目标端。

四、搬运的交互形式

在搬运过程中,交互形式一般有三种形式,脚本式、拖拽式、向导式。

1. 脚本式

顾名思义,脚本式就是写一个脚本来进行数据同步。这种形式更多的是偏技术,在产品设计中一般不会过多涉及。

常见的脚本式同步:

古老的是Sqoop了,他实现了结构化数据和Hadoop之间的批量数据迁移,最初由Apache软件基金会开发,但是在2016年,该项目已经被终止了。

在阿里云Dataworks中的数据集成DataX,也会有的脚本界面的数据同步。是因为有些非结构化的数据源,没有表结构类型,在脚本界面中能够更加灵活。

2. 拖拽式

拖拽类的数据集成类产品,就是在一个画布中拖拽各个算子,组成一个ETL的DAG图,从而实现数据的同步。

常见的拖拽式的同步:

最有名的算是Informatica Powercenter,这款产品在国外似乎知名度很高,常年在Genter象限的领导这位置。但在国内似乎只有一些银行、等金融行业使用多些,在互联网公司更是近乎没什么声量。

IBM Datastage 一款和powercenter类似的软件。

Kettle一款开源的免费的数据ETL工具。

如果有拖拽式的数据同步需求,这三个产品也常常会被拉在一起做比较。各有各的特点吧。

单独提一句,当使用拖拽式的数据集成时,其实多少有了一些数据开发的性质。但是如果细划分的话,和拖拽式的数据开发还是有些区别的。这个在《常见的数据开发形式》中的拖拽式数据开发中说下区别。

3. 向导式

向导式的数据集成,主要是指通过输入框或者选择配置框,就可以完成任务的创建。不需要写代码,也不需要拖拽算子,这种开发形式我定义为向导式。

大部分的云厂商的数据集成/数据同步类产品均是向导式的模式。这里就不过多说了。

五、时效性

个人理解数据集成只分为两大类,离线数据集成和实时的数据集成。至于全量同步、增量同步等等,只是这两种大形式下的一种选项。而这两种形式,又均可以使用脚本式、拖拽式或者向导式来实现。形式不重要,本质是实时还是离线才重要,当然设计页面的时候也会多少有些配置区别。

在失效性上,实时数据越来越受重视,还有一些批流一体的概念,所以实时的数据集成需求也越来越多。

但是个人不认为离线的数据集成会被完全干掉。一方面——成本,显然实时的成本要比离线的成本要高。一方面——技术,实时集成之后一系列的技术和离线集成是完全不同的,现有的技术架构不一定都做好了准备。

还有一方面就是历史习惯,以上面介绍为例,切片表、拉链表等等均是离线场景下的,在后续介绍中会发现有大量的概念在离线场景下很顺畅,但是往往会自动的忽略实时场景。这可能也是因为实时的历史相对较短。在其他概念出现的时候,并没有考虑实时的场景。

六、支持的数据源类型

数据集成支持的数据源多少是一个平台能力的体现,支持的越多,可以理解为能力越强。不同数据源可能支持实时的形式、可能支持离线形式,也可能两种均支持。数据源大类上也有不同的划分:关系型数据库、大数据存储、消息队列、文本文件等等。

这是从类型上划分,如果从接入数据源之后的操作上来分,就两类:有表结构的和没有表结构的。

1. 有表结构

有表结构的可以是关系型数据库、HIVE、Doris等等这类本身有表结构的。也可以是固定格式的文本、JSON这类可以赋予一个固定scheam的,这类需要进行数据平台有元数据管理能力,在《当我们谈元数据的时候,我们在谈什么》中会介绍这一部分。这类有表结构的在交互时,以二维表格的形式在向导、或者拖拽中进行交互了。

2. 没有表结构

没有表结构的相对会复杂些,有时候可以强制给这种没有表结构的授予一个表结构。有的时候也只能转换成脚本的形式来实现映射。这个具体数据源具体分析了。

数据源支持多少体现能力强弱。同样,作为产品每种数据源可能都有其自身的特性,也需要进行个性化的设计,而产品经理又会将各种类型的数据源都熟悉到,个人感觉也是数据集成类产品设计的一个麻烦的点。

至于各种非结构化的文档、图片、音视频等等。都不在大数据平台这个范畴内。之前也会提非结构化的大数据平台,非结构化的大数据治理。但是目前个人没有接触到特别好的产品。

本文由 @数据小吏 原创发布于人人都是产品经理,未经许可,禁止转载

题图来自 Unsplash,基于 CC0 协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。