惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
人人都是产品经理
人人都是产品经理
Cisco Talos Blog
Cisco Talos Blog
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
V
V2EX
博客园 - 三生石上(FineUI控件)
Martin Fowler
Martin Fowler
WordPress大学
WordPress大学
D
Docker
S
SegmentFault 最新的问题
博客园 - 聂微东
美团技术团队
Apple Machine Learning Research
Apple Machine Learning Research
月光博客
月光博客
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
Last Week in AI
Last Week in AI
M
MIT News - Artificial intelligence
F
Fortinet All Blogs
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
The GitHub Blog
The GitHub Blog
GbyAI
GbyAI
L
LangChain Blog
Vercel News
Vercel News
博客园 - 叶小钗
MongoDB | Blog
MongoDB | Blog
Stack Overflow Blog
Stack Overflow Blog
H
Help Net Security
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
The Cloudflare Blog
Engineering at Meta
Engineering at Meta
T
Threat Research - Cisco Blogs
T
Threatpost
Scott Helme
Scott Helme
T
Tailwind CSS Blog
Latest news
Latest news
Stack Overflow Blog
Stack Overflow Blog
Blog — PlanetScale
Blog — PlanetScale
The Register - Security
The Register - Security
罗磊的独立博客
P
Proofpoint News Feed
腾讯CDC
S
Schneier on Security
雷峰网
雷峰网
A
About on SuperTechFans
T
Tenable Blog
F
Full Disclosure
Cyberwarzone
Cyberwarzone
博客园_首页
有赞技术团队
有赞技术团队
K
Kaspersky official blog

任霏博客

我将关闭服务器:AI彻底掐死了奄奄一息的个人博客 - 博客文章 - 任霏的个人博客网站 Vibe Coding 实现本地模型 Token 自由 IntelliJ IDEA + LM Studio + LM Link + Continue 1Password涨价后,别急着退订1Password,这个操作能帮你省25% - 博客文章 - 任霏的个人博客网站 我,吃饱了撑的注册了个域名,Cloudflare账号没了,不建议将域名放在Cloudflare - 博客文章 - 任霏的个人博客网站 临时邮箱:保护隐私与免骚扰的新方式 - 博客文章 - 任霏的个人博客网站 价值4100万美元SOL被盗SwissBorg在Solana上遭遇安全事件超200万枚ETH排队退出质押 - 博客文章 - 任霏的个人博客网站 注意 Web3 钱包遭遇 NPM 超大规模供应链攻击投毒事件 - 博客文章 - 任霏的个人博客网站 我受到以太坊ERC-20假代币地址投毒攻击记录一下大家谨防上当受骗 - 博客文章 - 任霏的个人博客网站 在2025年使用显卡 NVIDIA RTX 2080 Ti 挖矿收益记录和分析还能不能挖矿 - 博客文章 - 任霏的个人博客网站 分享我是如何成功戒烟的经验(包含失败的经验) - 博客文章 - 任霏的个人博客网站 在 OpenWRT 中配置 PassWall2 插件的教程记录 - 博客文章 - 任霏的个人博客网站 Office Professional Plus 2019 VL 版下载与 KMS 激活 - 博客文章 - 任霏的个人博客网站 最近几天我的 CDN 流量受到来自电信[山东烟台]、[江苏扬州]两地家庭宽带的攻击 - 博客文章 - 任霏的个人博客网站 自建AI服务器使用PVE配置显卡直通虚拟机安装驱动、CUDA和cuDNN运行LLM大模型进行AI炼丹 - 博客文章 - 任霏的个人博客网站 各代英特尔Intel芯片组主板适配兼容的CPU和DDR内存数据统计 - 博客文章 - 任霏的个人博客网站 GitLab Global 国际站将在60天内删除中国大陆、香港、澳门地区的账号 - 博客文章 - 任霏的个人博客网站 Github Copilot Free 开放免费版所有人均可使用 OpenAI GPT-4o、Anthropic Claude 3.5 AI 代码生成服务 - 博客文章 - 任霏的个人博客网站 Cloudflare 更新了订阅协议明确禁止优选IP和搭建梯子的行为 - 博客文章 - 任霏的个人博客网站 Linux(systemd)手动离线安装二进制(binary)MairaDB数据库指定版本 - 博客文章 - 任霏的个人博客网站 流程引擎 Flowable/Activiti 无法启动报错:liquibase - Waiting for changelog lock.... - 博客文章 - 任霏的个人博客网站 Spring Boot 全局异常捕获 ControllerAdvice 无法捕获 过滤器(Filter)和拦截器(Interceptor)中的异常 - 博客文章 - 任霏的个人博客网站 Freenom 收回了全部免费域名(.tk/.cf/.gq/.ga/.ml) - 博客文章 - 任霏的个人博客网站 Alibaba Druid 数据库连接池 takeLast() AQS 死锁导致程序无响应 - 博客文章 - 任霏的个人博客网站 你的网站加入 HSTS preload 预加载列表了吗 - 博客文章 - 任霏的个人博客网站 我的博客网站接入使用 Cloudflare 的架构分享 - 博客文章 - 任霏的个人博客网站 在 Ubuntu 上的 Nginx 高并发配置实践 - 博客文章 - 任霏的个人博客网站 技术分析黑客敲诈勒索站长的新手法百度对此也无能为力 - 博客文章 - 任霏的个人博客网站 百度站长平台快速收录权限和sitemap提交权限被全部收回 - 博客文章 - 任霏的个人博客网站 极狐 GitLab 免费时代结束不升级付费账号将禁止登陆 - 博客文章 - 任霏的个人博客网站 免费.ml域名10年委托合同到期被马里共和国收回域名经营权 - 博客文章 - 任霏的个人博客网站 从极狐Gitlab看各种中间件技术选型 - 博客文章 - 任霏的个人博客网站 时隔十年首次收到 Google AdSense 的付款 - 博客文章 - 任霏的个人博客网站 ga域名被加蓬共和国从Freenom公司手中收回域名经营权 - 博客文章 - 任霏的个人博客网站 Freenom 被 Meta(Facebook) 起诉导致暂停 .tk/.ga/.ml/.cf/.gq 等新域名注册 - 博客文章 - 任霏的个人博客网站 生花妙笔信手来 – 基于 Amazon SageMaker 使用 Grounded-SAM 加速电商广告素材生成 [1] - 博客文章 - 任霏的个人博客网站 github.renfei.net 不再完整代理 Github 页面改为代理指定文件 - 博客文章 - 任霏的个人博客网站 优雅的源代码管理(三):本地优雅的使用 Git Rebase 变基 - 博客文章 - 任霏的个人博客网站 优雅的源代码管理(二):Git 的工作原理 - 博客文章 - 任霏的个人博客网站 优雅的源代码管理(一):版本控制系统 VCS(Version Control System)与软件配置管理 SCM(Software Configuration Management) - 博客文章 - 任霏的个人博客网站 ChatGPT 开发商 OpenAI 买下极品域名 AI.com - 博客文章 - 任霏的个人博客网站 火爆的 AI 人工智能 ChatGPT 国内注册教程、使用方式和收费标准 - 博客文章 - 任霏的个人博客网站 解决 SpringCloud 中 bootstrap.yml 不识别 @activatedProperties@ 参数 - 博客文章 - 任霏的个人博客网站 Cron表达式书写教程搞定Linux、Spring、Quartz的定时任务 - 博客文章 - 任霏的个人博客网站 阿里云香港可用区C发生史诗级故障 - 博客文章 - 任霏的个人博客网站 国产统信UOS服务器操作系统V20提供免费使用授权 - 博客文章 - 任霏的个人博客网站 开源站长推送工具效果评测推荐(百度/必应/谷歌) - 博客文章 - 任霏的个人博客网站 获取公网IP服务「ip.renfei.net」升级增加地理定位数据字段公示 - 博客文章 - 任霏的个人博客网站 腾讯微信成为 GitHub 秘钥扫描合作伙伴 - 博客文章 - 任霏的个人博客网站 免费设置亚马逊远程桌面 - 博客文章 - 任霏的个人博客网站 我关站了-个人备案核查要求关闭论坛系统 - 博客文章 - 任霏的个人博客网站 Linux 中 chmod 644、755、777权限的含义和使用方法 - 博客文章 - 任霏的个人博客网站 Spring Boot 3.0 发布啦但是我还是暂时放弃升级了 - 博客文章 - 任霏的个人博客网站 过时老旧电脑安装 Windows11 跳过 Win11 TPM、RAM、Secure Boot 最低系统要求限制检查 - 博客文章 - 任霏的个人博客网站 IT资讯网站 cnBeta.com 网站被关停域名已经被 clientHold - 博客文章 - 任霏的个人博客网站 当你 git push 时,极狐GitLab上发生了什么? - 博客文章 - 任霏的个人博客网站 昨晚接口又被日了,接口被疯狂调用的背后是人是鬼?是道德的沦丧还是人性的扭曲? - 博客文章 - 任霏的个人博客网站 Mac破解软件站MacWk下线破产了,我想分享Mac破解软件却不太敢 - 博客文章 - 任霏的个人博客网站 我和极狐GitLab的故事回顾 - 博客文章 - 任霏的个人博客网站 极狐 GitLab 可以集成石墨文档作为Wiki管理了 - 博客文章 - 任霏的个人博客网站 关于基于极狐 GitLab 的知识库探索思路 - 博客文章 - 任霏的个人博客网站 在极狐 Gitlab 流水线配置里设置镜像拉取策略 - 博客文章 - 任霏的个人博客网站 极狐 GitLab Markdown 可排序、可过滤的数据表格实现 - 博客文章 - 任霏的个人博客网站 极狐 GitLab Issue 统计的思路分享 - 博客文章 - 任霏的个人博客网站 把极狐 GitLab Runner 搬回家运行,指定专属 Runner - 博客文章 - 任霏的个人博客网站 给极狐 GitLab SaaS 安装百度统计代码统计仓库访问量 - 博客文章 - 任霏的个人博客网站 关于我在极狐GitLab造机器人这件事儿我觉得很酷 - 博客文章 - 任霏的个人博客网站 如何参与极狐GitLab开源项目成为贡献者 - 博客文章 - 任霏的个人博客网站 关于 Cloudflare R2 Storage 的使用体验测评和我的观点 - 博客文章 - 任霏的个人博客网站 西部数据(WD40NMZW) 4TB Elements(2060-800041-003)移动硬盘拆解记录 - 博客文章 - 任霏的个人博客网站 获取公网IP服务「ip.renfei.net」升级,支持根据请求头 Accept 响应不同格式数据 - 博客文章 - 任霏的个人博客网站 我站再次受到扫描攻击的公告 - 博客文章 - 任霏的个人博客网站 我站近期遭受到恶意不友好访问攻击公告 - 博客文章 - 任霏的个人博客网站 讨论下Java中的volatile和JMM(Java Memory Model)Java内存模型 - 博客文章 - 任霏的个人博客网站 Java中说的CAS(compare and swap)是个啥 - 博客文章 - 任霏的个人博客网站 大佬们在说的AQS,到底啥是个AQS(AbstractQueuedSynchronizer)同步队列 - 博客文章 - 任霏的个人博客网站 草根站长利用极狐GitLab作为图床外链 JIHULAB 101 - 博客文章 - 任霏的个人博客网站 极狐GitLab上的Building风云 - 之API如此多娇 JIHULAB 101 - 博客文章 - 任霏的个人博客网站 极狐GitLab上的Building风云 - 之Security风云再起 JIHULAB 101 - 博客文章 - 任霏的个人博客网站 极狐GitLab上的Building风云 - 之Docker风云必胜 JIHULAB 101 - 博客文章 - 任霏的个人博客网站 极狐GitLab上的Building风云 - 之Java Maven雄霸天下 JIHULAB 101 - 博客文章 - 任霏的个人博客网站 正确使用 Optional 优雅的解决 null 空指针 NPE 异常 - 博客文章 - 任霏的个人博客网站 世界排名网站Alexa将于2022年5月1日停止服务 - 博客文章 - 任霏的个人博客网站 免费IP数据库IP2Location的Java版客户端与BIN文件下载 - 博客文章 - 任霏的个人博客网站 人大金仓 KingbaseES V8 R3 安装包、驱动包和 License 下载地址 - 博客文章 - 任霏的个人博客网站 极狐(GitLab)SaaS平台内测试用报告 - 博客文章 - 任霏的个人博客网站 软件设计开发经验分享:文字应当使用透明度而不是固定色值 - 博客文章 - 任霏的个人博客网站 国内版 Gitlab.cn(极狐)正在为期一个月的内测阶段中 - 博客文章 - 任霏的个人博客网站 谷歌 Google Indexing 推送接口教程的更新 - 博客文章 - 任霏的个人博客网站 在苹果 MacOS 上基于 Docker 容器运行人大金仓(Kingbase)V8 R3 数据库的教程 - 博客文章 - 任霏的个人博客网站 软路由 OpenWRT(LEDE)x86_64 安装刷机教程 - 博客文章 - 任霏的个人博客网站 软路由 OpenWRT(LEDE)编译教程:使用 Github 的 Actions Workflows 免费云上编译教程 - 博客文章 - 任霏的个人博客网站 软路由 OpenWRT(LEDE)自己编译教程记录 - 博客文章 - 任霏的个人博客网站 Java中高级高并发与多线程系列(六):经典的生产者-消费者模型 - 博客文章 - 任霏的个人博客网站 Redis 未授权访问漏洞分析 cleanfda 脚本复现漏洞挖矿 - 博客文章 - 任霏的个人博客网站 记录一次 Redis 6379 被黑攻击 被设置主从同步和挖矿门罗币 - 博客文章 - 任霏的个人博客网站 Java中高级高并发与多线程系列(五):线程的 synchronized 同步与死锁 - 博客文章 - 任霏的个人博客网站 我要吐槽一下码云 Gitee 引用第三方图片失败和 issues 处理机制 - 博客文章 - 任霏的个人博客网站 站长推送工具发布并已开源,支持百度/必应/谷歌搜索引擎的主动推送 - 博客文章 - 任霏的个人博客网站 Java中高级高并发与多线程系列(四):线程运行状态的切换与操作 - 博客文章 - 任霏的个人博客网站 Java中高级高并发与多线程系列(三):FutureTask 类与 Callable 接口 - 博客文章 - 任霏的个人博客网站
大数据ETL技术中对数据进行局部哈希对比优化对比速度 - 博客文章 - 任霏的个人博客网站
任霏 · 2021-02-06 · via 任霏博客

这篇文章是对上一篇文章《大数据ETL技术中的数据抽取方法》的补充,如果还没看过上一篇文章建议先看上一篇文章,本文在上一篇文章的基础上讨论解决数据量在非常大的情况下如何快速对比数据。

在上一篇文章中我们通过对每条数据的所有字段进行了哈希摘要,将几十个字段摘要成了一串哈希值,加快的我们的对比速度,但这只是将字段进行了压缩,数据的数量还是没有被压缩,如果有几十亿条数据,我们还是不能快速的找到变化的数据。

局部哈希

假如我们两边数据各有一万亿条数据,按照上一篇文章提出的对比思路,我们将扫描对比多少次呢?是一万亿乘以一万亿,因为要遍历两边的数据,这种扫描的效率肯定是不行的,所以我们可以将数据分片打包计算哈希摘要。

在字段做完哈希以后,我们先按id字段排个序,然后按照每一万分个组,例如id在110000,1000120000,20001~30000这样,每个组的哈希值连起来再做一次哈希,就得到了这个组的哈希值,也就是全部数据的局部哈希值,一万亿的数据被我们切分压缩成了一亿个局部哈希,我们对比每个局部哈希值,遇到不一样的,再去对比这个组里每条数据的哈希,就可以找到不一致的数据。

举个例子

为了方便演示,我们以20条数据为例,分别有数据源A、数据源B:

id字段字段字段字段
1内容内容内容内容
2内容内容内容内容
3内容内容内容内容
4内容内容内容内容
5内容内容内容内容
6内容内容内容内容
7内容内容内容内容
8内容内容内容内容
9内容内容内容内容
10内容内容内容内容
11内容内容内容内容
12内容内容内容内容
13内容内容内容内容
14内容内容内容内容
15内容内容内容内容
16内容内容内容内容
17内容内容内容内容
18内容内容内容内容
19内容内容内容内容
id字段字段字段字段
---------------
1内容内容内容内容
2内容内容内容内容
3内容内容内容内容
4内容内容内容内容
5内容内容内容内容
6内容内容内容内容
7内容内容内容内容
8内容内容内容内容
9内容内容内容内容
10内容内容内容内容
11内容内容内容内容
12内容内容内容内容
13内容内容内容内容
14内容内容内容内容
15内容内容内容内容
16内容内容内容内容
17内容内容内容内容
18内容内容内容内容
19内容内容内容内容
20内容内容内容内容

我们先对每条数据的字段内容进行哈希摘要,得到如下内容:

id哈希
13dc57f9c5592436c88a2524c20c0286e3dc57f9c
29c14be621dd8440b9af1904d14bfc3869c14be62
35e4e864908ab4bf184fca290d65637c35e4e8649
4a86f9409404b4ad4add119b010d48acda86f9409
57d60b2fff0884bc196342fc02cf917d67d60b2ff
64956454889694d129e73c717afc4bb4c49564548
7e1a6c8d8895a49528d2a26429cd3f541e1a6c8d8
880b1d5d92257414ebe6b3861bf7e978980b1d5d9
93969f7b63507472aacae2b377ecc75453969f7b6
109d6e4f78fc424d58ba1464da308ee6d59d6e4f78
11aa75a53d3ec1442d994c477cb4761608aa75a53d
1272be42e2b2c943c0a46ea2d6ba73746972be42e2
13219ed8d179e24ba88cd34779c8022384219ed8d1
14e1b6b02367ed49e7b1c01cdf60b0dffce1b6b023
15d41fd4ec5efe44779d5970592a6b2bacd41fd4ec
16906d965b7a114608bb170f4504df0aba906d965b
17294753f98c564bf7a58e0fc1ace67aff294753f9
18148bcb667f9d412187176d346f6bcbc0148bcb66
19927d8354109a420bb8a0434d6aba7a69927d8354
id哈希
------
13dc57f9c5592436c88a2524c20c0286e3dc57f9c
29c14be621dd8440b9af1904d14bfc3869c14be62
35e4e864908ab4bf184fca290d65637c35e4e8649
4a86f9409404b4ad4add119b010d48acda86f9409
57d60b2fff0884bc196342fc02cf917d67d60b2ff
64956454889694d129e73c717afc4bb4c49564548
7e1a6c8d8895a49528d2a26429cd3f541e1a6c8d8
880b1d5d92257414ebe6b3861bf7e978980b1d5d9
93969f7b63507472aacae2b377ecc75453969f7b6
109d6e4f78fc424d58ba1464da308ee6d59d6e4f78
11aa75a53d3ec1442d994c477cb4761608aa75a53d
1272be42e2b2c943c0a46ea2d6ba73746972be42e2
13219ed8d179e24ba88cd34779c8022384219ed8d1
14e1b6b02367ed49e7b1c01cdf60b0dffce1b6b023
15d41fd4ec5efe44779d5970592a6b2bacd41fd4ec
16906d965b7a114608bb170f4504df0aba906d965b
17294753f98c564bf7a58e0fc1ace67aff294753f9
18148bcb667f9d412187176d346f6bcbc0148bcb66
19927d8354109a420bb8a0434d6aba7a69927d8354
2049f952179c10465bb1f76961384a404949f95217

然后我们按照10条为一组,对每组的哈希再摘要哈希值,得到如下情况:

id局部哈希哈希
175d65498d9c861fa464c1607fe7c60b5e1f8a9de3dc57f9c5592436c88a2524c20c0286e3dc57f9c
29c14be621dd8440b9af1904d14bfc3869c14be62
35e4e864908ab4bf184fca290d65637c35e4e8649
4a86f9409404b4ad4add119b010d48acda86f9409
57d60b2fff0884bc196342fc02cf917d67d60b2ff
64956454889694d129e73c717afc4bb4c49564548
7e1a6c8d8895a49528d2a26429cd3f541e1a6c8d8
880b1d5d92257414ebe6b3861bf7e978980b1d5d9
93969f7b63507472aacae2b377ecc75453969f7b6
109d6e4f78fc424d58ba1464da308ee6d59d6e4f78
1177b540f49a595afbb1c3f9209de23e8d00688c02aa75a53d3ec1442d994c477cb4761608aa75a53d
1272be42e2b2c943c0a46ea2d6ba73746972be42e2
13219ed8d179e24ba88cd34779c8022384219ed8d1
14e1b6b02367ed49e7b1c01cdf60b0dffce1b6b023
15d41fd4ec5efe44779d5970592a6b2bacd41fd4ec
16906d965b7a114608bb170f4504df0aba906d965b
17294753f98c564bf7a58e0fc1ace67aff294753f9
18148bcb667f9d412187176d346f6bcbc0148bcb66
19927d8354109a420bb8a0434d6aba7a69927d8354
id局部哈希哈希
---------
175d65498d9c861fa464c1607fe7c60b5e1f8a9de3dc57f9c5592436c88a2524c20c0286e3dc57f9c
29c14be621dd8440b9af1904d14bfc3869c14be62
35e4e864908ab4bf184fca290d65637c35e4e8649
4a86f9409404b4ad4add119b010d48acda86f9409
57d60b2fff0884bc196342fc02cf917d67d60b2ff
64956454889694d129e73c717afc4bb4c49564548
7e1a6c8d8895a49528d2a26429cd3f541e1a6c8d8
880b1d5d92257414ebe6b3861bf7e978980b1d5d9
93969f7b63507472aacae2b377ecc75453969f7b6
109d6e4f78fc424d58ba1464da308ee6d59d6e4f78
1191244c3037f6b6c308ead098c2ed48584c4eefadaa75a53d3ec1442d994c477cb4761608aa75a53d
1272be42e2b2c943c0a46ea2d6ba73746972be42e2
13219ed8d179e24ba88cd34779c8022384219ed8d1
14e1b6b02367ed49e7b1c01cdf60b0dffce1b6b023
15d41fd4ec5efe44779d5970592a6b2bacd41fd4ec
16906d965b7a114608bb170f4504df0aba906d965b
17294753f98c564bf7a58e0fc1ace67aff294753f9
18148bcb667f9d412187176d346f6bcbc0148bcb66
19927d8354109a420bb8a0434d6aba7a69927d8354
2049f952179c10465bb1f76961384a404949f95217

原本需要对比19X20=380次,现在我们只需要先对比两个局部哈希,发现id在1120的这个区域不一致,那么我们再对比1120的这个区域中每个详细的哈希值,对比9X10=90次,再加上我们对比局部哈希的两次,我们只对比了92次就把原先需要380次的对比完成了。以下是示意图:

大数据ETL技术中对数据进行局部哈希对比优化对比速度