惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

C
Cyber Attacks, Cyber Crime and Cyber Security
The Last Watchdog
The Last Watchdog
Forbes - Security
Forbes - Security
S
Security @ Cisco Blogs
TaoSecurity Blog
TaoSecurity Blog
T
Troy Hunt's Blog
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
H
Hacker News: Front Page
W
WeLiveSecurity
WordPress大学
WordPress大学
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
N
News | PayPal Newsroom
D
DataBreaches.Net
博客园_首页
Y
Y Combinator Blog
F
Fortinet All Blogs
罗磊的独立博客
Apple Machine Learning Research
Apple Machine Learning Research
T
Tailwind CSS Blog
Hacker News - Newest:
Hacker News - Newest: "LLM"
Hugging Face - Blog
Hugging Face - Blog
The GitHub Blog
The GitHub Blog
B
Blog RSS Feed
C
CERT Recently Published Vulnerability Notes
P
Privacy & Cybersecurity Law Blog
Help Net Security
Help Net Security
S
SegmentFault 最新的问题
Recorded Future
Recorded Future
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
N
News and Events Feed by Topic
Schneier on Security
Schneier on Security
V
Vulnerabilities – Threatpost
A
About on SuperTechFans
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
L
LangChain Blog
酷 壳 – CoolShell
酷 壳 – CoolShell
GbyAI
GbyAI
L
LINUX DO - 热门话题
Simon Willison's Weblog
Simon Willison's Weblog
雷峰网
雷峰网
G
Google Developers Blog
Cyberwarzone
Cyberwarzone
I
Intezer
Google DeepMind News
Google DeepMind News
AWS News Blog
AWS News Blog
C
Check Point Blog
AI
AI
博客园 - 【当耐特】
有赞技术团队
有赞技术团队
博客园 - 司徒正美

博客园 - 俊哥

“System.OutOfMemoryException”类型的未经处理的异常在 mscorlib.dll 中发生 文法推断与机器学习的区别是什么? 富与贵人之所欲也不以其道取之不处也, 重读人生,40岁从这10件事情开始。 扫科技馆门前雪 中午买书 用户中心 - 博客园 油气井的分类/什么是探井?/探井与开发井的区别/ 2009-08-11 新手机号 有趣的测试 我这一个月 进度过半 管人管到心 ERP的灵魂-业务过程 那些父母要求我们做的事 毕设日志_万事开头难 明天回家 出租车上的糗事
数据映射(data mapping)基本概念
俊哥 · 2010-01-22 · via 博客园 - 俊哥

 最近正在做数据迁移相关的项目,感觉数据映射非常重要,但是又比较难,所以在维基上收集了数据映射的基本概念,以及数据映射与其它相关概念之间的关系,整理如下。

    数据映射(Data Mapping) :给定两个数据模型,在模型之间建立起数据元素的对应关系,将这一过程称为数据映射。数据映射是很多数据集成任务的第一步,例如:数据迁移(data migration)、数据清洗(data cleaning)、数据集成、语义网构造、p2p信息系统。

    数据映射的方式有两种:手工编码(Hand-coded)和可视化操作(Graphical manual)。手工编码是直接用类似XSLT,JAVA,C++这样的编程语言定义数据对应关系。可视化操作通常支持用户在数据项之间画一条线以定义数据项之间的对应关系。有些支持可视化操作的工具可以自动建立这种对应关系。这种自动建立的对应关系一般要求数据项具有相同的名称。无论采用手工方式操作还是自动建立关系,最终都需要工具自动将图形表示的对应关系转化成XSLT,JAVA,C++这样的可执行程序。

    目前数据映射领域存在两个前沿的研究方向:
    数据驱动的映射:利用统计方法分析源数据库和目标数据库的实际数据,挖掘出数据对应关系。这种方法可以发现数据之间的“substring”,“concatenations”,“arithmetic”,“case statements”等转换逻辑。这种方法还可以用于发现异常情况,也就是不符合已定义转换逻辑的数据。

    那么数据映射和数据迁移是什么关系呢?

    通常,数据迁移包括三个阶段:数据抽取(extract),数据转换(transform),数据加载(load),也就是俗称的ETL。但是如何抽取,如何转换,加载到什么位置这些问题都需要有一个明确的规则指导。因此这主需要数据映射来定义这些规则。这有点像软件开发过程中的设计与开发。数据映射相当于软件设计、ETL的执行代码实现过程相当于软件开发。

    现在我正在调研数据迁移的框架和流程,以及可用的工具,但是始终没有找到比较好用的数据迁移工具。