惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

N
News and Events Feed by Topic
Malwarebytes
Malwarebytes
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
C
Cybersecurity and Infrastructure Security Agency CISA
F
Future of Privacy Forum
C
Cisco Blogs
T
The Exploit Database - CXSecurity.com
A
Arctic Wolf
S
Securelist
K
Kaspersky official blog
S
Schneier on Security
T
ThreatConnect
T
Tenable Blog
Spread Privacy
Spread Privacy
T
True Tiger Recordings
AWS News Blog
AWS News Blog
F
Fox-IT International blog
量子位
T
Threatpost
V
Vulnerabilities – Threatpost
C
CERT Recently Published Vulnerability Notes
Cisco Talos Blog
Cisco Talos Blog
GbyAI
GbyAI
宝玉的分享
宝玉的分享
腾讯CDC
G
Google Developers Blog
aimingoo的专栏
aimingoo的专栏
Cyberwarzone
Cyberwarzone
有赞技术团队
有赞技术团队
S
SegmentFault 最新的问题
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
V
Visual Studio Blog
U
Unit 42
雷峰网
雷峰网
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
Simon Willison's Weblog
Simon Willison's Weblog
O
OpenAI News
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
The GitHub Blog
The GitHub Blog
The Register - Security
The Register - Security
MyScale Blog
MyScale Blog
小众软件
小众软件
A
About on SuperTechFans
Last Week in AI
Last Week in AI
Y
Y Combinator Blog
博客园 - 三生石上(FineUI控件)
美团技术团队
Google Online Security Blog
Google Online Security Blog
P
Proofpoint News Feed
MongoDB | Blog
MongoDB | Blog

InfoQ - 促进软件开发领域知识与创新的传播

Bintrail:利用索引二进制日志实现 MySQL 时间旅行查询 ClickHouse实战:Agentic Coding,是“神”还是“坑”? 借助 Android CLI,谷歌正让 Android 工具链更便于代理使用 从 AI 试点到 AI 运营:零售与制造业领导者如何让 Agentic AI 真正落地 | 技术趋势 45家机器人厂商背后都是它!天机智能完成10亿元融资,估值奔百亿了 OpenTofu 1.12发布,带来 Terraform 从未提供的功能 Copilot 创始工程师:大多数 AI 编码“就像开着法拉利去买牛奶一样” 人工智能无法加速软件交付 C++之父开撕AI Coding:资深开发者宁愿退休也不愿伺候AI生成的代码 Java近期资讯:OpenJDK JEP、Azul Payara、WildFly、LangChain4j、OpenXava和Google ADK 模型之外,皆属Harness!DeepSeek终于出手:招人、组队、从零造一个中国版Claude Code AI时代数据面临的新挑战和解决之道|AICon上海 数字银行Monzo在100个团队与12000个dbt模型之上构建可治理的数据网格 破局多端困境,拥抱 AI 变革:飞猪跨端技术的过去、现在与未来|AICon上海 大规模工程支撑场景下的多智能体系统设计:Grab 实践案例 OpenAI 详解规模化低延迟语音 AI 的 WebRTC 架构 华为鸿蒙突击队编程框架首席技术专家谢国确认出席AICon上海站,并以鸿蒙为例分享AI 时代的跨平台框架演进 买了卡不等于买到生产力:企业 Token 焦虑,逼出 AI Infra 新战场 Anthropic 推出 MCP 隧道,供私有代理访问内部系统 Agoda 构建多模态内容系统,链接图片和评论 别再骂 Claude 限速了,Anthropic Boris 亲口承认:最挑剔的用户,反而最离不开我们 为创造,再一次信仰之跃 |AdventureX 2026 开启招募 GitHub面临生存之战!多位员工曝内部乱象:独立文化要没了,封杀Claude Code才能“活” AI Coding 很强,为什么企业没提速? Gemini 3.5深夜登场,谷歌CEO劈柴亲自算账:速度快4倍、一年还省超10亿美元,曝内部已被颠覆 中经社发布“十五五”新产业研究智能体,可自主生成产业链分析报告 虚拟上下文窗口技术实现10倍扩容,联想天禧AI 4.0破解大模型长程推理难题 千问云发布,阿里云将模型路由、认证、用量查询全面 CLI、SKill化 TanStack 披露一起复杂的 npm 供应链攻击事件, 42 个包遭入侵 Vite 8.0 :基于 Rust 的统一打包工具,构建速度最高提升 30 倍 Fonttrio 发布:面向 shadcn/ui 的开源字体搭配注册表 Pip 26.1正式发布:上线依赖冷却机制与实验性锁定文件功能,抵御供应链攻击 阶跃星辰副总裁俞刚确认出席AICon上海站,分享多模态生成与理解的架构演进 Cloudflare 发布 Dynamic Workflows,将持久化执行扩展到按租户与按 Agent 动态运行的代码 每个企业都需要自己的 Token Factory?超聚变提出“智企”新范式 Navigation API 达基线版本,已经可以作为 History API 的替代方案使用 Cloudflare与Stripe推出新协议,让AI智能体创建账号、购买域名和进行生产部署 词元时代,万物智能 | 摩尔线程2026产品发布会:打造全场景AI算力基石 Altman拿Token换股权只够烧45天,20亿Token捐母校只值100块:Token真成“钱”了,谁更赚? 马斯克要当“太空版黄仁勋”:Anthropic一年上交150亿美元,Cursor百亿分手费锁死,SpaceX成新算力庄家 中国最神秘AI孵化器正式亮相:11位“大佬”导师成为超强外挂 从兼容 CUDA 到自我进化,摩尔线程想用 MUSA 解决真正的难题 OpenAI开源Symphony:面向自主编码智能体编排的SPEC规范文档 Ubuntu拥抱本地AI,而非云优先的操作系统集成 企业级Agent 落地,绕不开的 4 个工程问题 微软发布Aspire 13.3,迎来部署与前端重磅更新 腾讯混元世界模型的研发布局与思考|AICon上海 阿里发布新一代千问旗舰模型Qwen3.7-Max,登顶最佳国产模型 谷歌推出Cloud Fraud Defense,作为reCAPTCHA的继任者 AI Agent 最大的问题:它在企业里只是个“无名之辈” | 技术趋势 Cloudflare 推出支持确定性执行和 5 万个并发工作流的 Workflows V2 对话灵感实验室:全帧率 VLM、低成本与分层部署,业务现场不止需要炫技模型 10 天 3000 元,一人造出全球 AI 爆款!好莱坞导演抢人、游戏版引爆期待,合作细节首次披露 Anthropic 推出 Routines for Claude Code Snowflake Intelligence 合作伙伴生态:把 AI 能力带入千行百业 |技术趋势 一个隐蔽的循环依赖如何导致了 Discord 3 月份的语音服务中断 Arm 携手通义实验室,发起手机上的创意 AI 挑战赛 基准测试表明:AI智能体可修复独立漏洞,却难以理解系统范围影响 CIO 正在抛弃 AI 生码率:一场关于什么才算产研提效的实践复盘 外行式 Vibe Coding 正跟专业的Agent 工程走向融合:最吓人的是,我们“摆烂”有正当理由了? 不换 Kimi 底座,1/10 成本追平 Opus 4.7?Cursor 用 Composer 2.5 反击 Claude Code Snowflake Intelligence:从回答问题到执行任务的个人工作 Agent | 技术趋势 SolidJS 2.0 Beta:一级异步支持、重构的Suspense与确定性批处理 训推一体潮汐弹性:蚂蚁集团在智算基础设施的池化调度实践|AICon上海 如何在软件组织中扩展社会化的系统 Moonrepo发布moon v2.0:引入WASM插件工具链并重构CLI 蜂群Agent来了!openJiuwen社区发布JiuwenSwarm,引领Coordination Engineering新范式 Pinterest 工程师消除 CPU 僵尸进程,解决生产环境瓶颈 AMD苏妈对话李开复:AI转型只能由CEO驱动、未来“DRI”(直接负责人)将是企业核心|直击现场 8大岗位AI技能图谱 Anthropic发布工程事故报告,说明六周来Claude Code质量下降源于三项产品调整 05·29 腾讯云「数据库+AI」产品发布会重磅启幕 Airbnb 采用基于上下文的身份识别模型,支持隐私优先的社交功能 Anthropic首次揭秘下一代Claude怎么造!用户吐槽直接喂模型,连AI“做梦”都被训练 消息积压方面的数学知识:用于队列恢复的容量规划 Netflix借助Apache Druid中的区间感知缓存让84%的查询结果直接命中缓存 小红书 vibe coding 平台(Muse)之高可用人机共创 Agentic 系统架构实践|AICon上海 时序存储:影响成本与性能的设计选择 Cangjie:一门新的开源编译型语言,原生支持效应处理器和代数数据类型 Snowflake Observe:可观测性与 AI 数据云的融合 | 技术趋势 Golden Question 征集令|把你的 AI 落地之问带去 Snowflake Summit 26 H200还没到中国,Anthropic先急了:千亿美元抢芯片,转头涨价让开发者买单 曝Kimi 后训练团队研究员离职,曾为K2.5贡献者;MiniMax最新招聘,兼职也拿期权;传蜜雪CEO隔空回复黄仁勋,“大佬同款”卖爆|AI周报 从第一性原理出发:那些构建 Snowflake 的理念,以及下一步走向 | 技术趋势 Coder Agents让企业能够在自托管基础设施上运行AI编码工作流 超越基准:采用基于指标的方法在真实设备上维持iOS长期的良好性能 Java新闻汇总:GraalVM、Spring AI、JobRunr、GlassFish、Grails、Groovy和Quarkus Agent MCP 一个二十多年老兵的忧心:那条从Debug开始走向资深工程师的路,正在崩塌 从 Vibe Coding 到需求托管交付 Agent,菜鸟 AI 研发效能实践|AICon上海 从批处理迁移到微批次流式处理的实战经验 AI 的“最后一公里”:本地执行与全场景硬件接入的下一代 Agent 中枢|AICon上海 ChatGPT 可以帮你理财了,但它也知道你的全部余额!用户:谢谢不用了 记忆感知的大模型 KVCache 优化|AICon上海 Kubernetes v1.36 发布:安全默认配置强化,AI 工作负载支持日趋成熟 百度想明白了:旧供给到达极限了 “一人公司”正在重做AI创业?极客部落首场16个OPC项目路演:AI 创业已从“卷模型”转向“卷闭环” 当AI助手进化为自主智能体:英伟达如何携手 SAP 重构企业级“信任逻辑”? JEP 533 加强 JDK 27 中 Java 结构化并发的异常处理 兼顾效率、成本与能力,百灵开源旗舰推理模型 Ring-2.6-1T Grafana Pyroscope 2.0:实现持续性能分析规模化落地
Oracle XStream 技术揭秘:高吞吐 OLTP 场景下的 CDC 影响评估 | 技术实践
Jakub Puchal · 2026-05-26 · via InfoQ - 促进软件开发领域知识与创新的传播

2026 年,智能体将在企业级应用中取得哪些实质性突破?点击下载《2026 年 AI 与数据发展预测》白皮书,获悉专家一手前瞻,抢先拥抱新的工作方式!

要点速览

Snowflake Openflow Connector for Oracle 是 Snowflake 全新的原生解决方案,可将运营数据直接流式传输到 Snowflake,无需复杂的第三方中间件。然而,数据库管理员(DBA)有时会担心,启用这类变更数据捕获(CDC)管道会破坏其生产环境的稳定性。

为了验证大规模场景下的性能和稳定性,我们使用真实的 TPC-C 工作负载对该连接器进行了压力测试(以 XStream 模式运行),该负载可持续保持约 37,000 笔复杂事务/秒。

结果如何?

  • Redo 影响:线性增长,而非指数级增长(日志量约增加 47%);

  • CPU 开销:几乎可以忽略,约为 3%(主要由日志 I/O 驱动,而不是 XStream 进程本身);

  • 吞吐量:除非你的数据库已经在磁盘写入方面受到 I/O 限制,否则对事务延迟没有影响。

稳定性与新鲜度之间的冲突

对于 Oracle DBA 来说,使用 CDC 有时听起来像是一种威胁。

你的职责非常明确:保护生产 OLTP 系统。你最不愿看到的情况,是某个外部进程激进地争抢 CPU、导致缓冲区缓存抖动,或阻塞日志写入器(LGWR)。当数据工程师请求启用 XStream Out,以便将数据实时摄取到 Snowflake 时,“不行”可能会成为你的默认回答。

我们理解这种怀疑。在 Snowflake,我们将关键任务型 OLTP 源数据库视为至关重要。我们知道,如果作为记录系统的运营系统宕机,下游分析也就无关紧要了。

然而,AI 对近实时数据的需求不会消失。为了弥合数据工程对数据新鲜度的需求与 DBA 对稳定性的需求之间的差距,我们不再猜测,而是开始测量。

我们针对 Oracle XStream Out 运行了高强度工作负载,以确定它在 AWS 中运行的高吞吐量、中等规模系统上的确切“成本”。以下是数据、我们发现的摩擦点,以及能够确保生产环境安全的架构模式。

测试设置:对生产现实进行压力测试

我们不想测试一个基础的 “Hello World” 场景。我们希望在一个配置适中的数据库上模拟一个真实、嘈杂的企业工作负载,以了解压力点在哪里。

环境:

  • 数据库:AWS RDS Oracle 19c Enterprise Edition(db.m6in.16xlarge);

  • 计算:64 个 vCPU,256 GB RAM;

  • 存储:io2 Block Express(200,000 预置 IOPS),用于处理写入密集型工作负载。

工作负载:

  • 工具:HammerDB TPC-C(用于 OLTP 压力测试的行业标准,包含插入、更新和删除操作的混合负载);

  • 规模:100 个仓库,100 个并发虚拟用户;

  • 吞吐量:持续约 37,000 TPS(每秒事务数);

  • 时长:每个场景持续运行 60 分钟。

测试场景:

我们将基线场景(无 CDC)与三种配置进行了比较:

  1. 补充日志(仅主键);

  2. 补充日志(ALL 列);

  3. 启用完整 XStream Capture。

我们用于本次测试的环境是有意设置成“中端”和中等规模的配置。运行在 AWS RDS 服务上为我们的 Openflow Connector 测试提供了一些便利;不过众所周知,在高度虚拟化的基础设施(例如 AWS RDS)中运行数据库,对于高性能工作负载而言并不是最优选择。这也是为什么 AWS 目前正在其数据中心内广泛推出对 Oracle Exadata 和 Autonomous Database 服务的直接支持。

使用 Oracle Exadata,客户通常可以实现超过 100 万 TPS,而 Exadata X11M 能够以惊人的 31 TB/秒扫描数据,并以超过 100 万 IOPS 的速度写入数据。在这些更企业级的系统上运行 XStream 的 DBA,可以预期获得比我们下面展示的结果更好的性能和更优的结果。

结果:来自 AWR 报告的证据

“Redo 爆炸”神话被打破

Oracle AI Database 和 XStream 并不强制要求启用完整补充日志(LOG DATA (ALL)),但对于 Snowflake Openflow Connector 而言,这会极大简化以完全一致性管理数据的过程,因此我们要求开启该功能。DBA 最常见的担忧是,为 ALL 列启用补充日志会产生 5 倍或 10 倍的日志量。

数据:Redo 使用量并没有出现指数级爆炸;它是线性增长的。该数据来自 HammerDB TPC-C 测试中典型的插入、更新和删除操作混合负载。

  • 基线 Redo:每笔事务约 6.79 KB;

  • 启用 ‘ALL’ 列日志后:每笔事务约 10.96 KB。

这代表日志生成量约增加 47%(约 1.5 倍)。虽然这一增长显著,但它是可确定的。它并不是 FUD(恐惧、不确定性和怀疑)讨论中经常提到的那种难以管理的 500% 激增。此外,在当今监管日益严格的世界中,对于任何受 GDPR、HIPAA 或 SOX 合规政策约束的行业来说,拥有完整、可审计、详细的数据“前镜像”历史记录,都是一个非常好的做法。

容量估算公式:

预计 Redo 量 = 当前量 * 1.5

CPU 开销可以忽略不计

XStream 本身极其轻量。观察到的总 CPU 开销仅约为 3%(使用率从约 33% 上升到约 36%)。

洞察:这一 CPU 增长的大部分来自数据库引擎写入额外的 Redo 内容(补充日志)。实际的 XStream Capture 后台进程几乎没有增加任何计算负载。

吞吐量与 “log sync” 瓶颈

我们的测试将数据库推至约 37,000 TPS。在这一速度下,当 XStream 完全启用时,我们观察到总事务吞吐量下降了 8–9%。

为什么?这一下降与增加的日志量触及存储限制直接相关,而不是因为 XStream 锁定了数据库资源。

  • 基线约束:即使在启用 CDC 之前,我们的测试也已经受 I/O 限制。(这并不罕见,因为与更优的裸金属主机相比,RDS 基础设施的 IOPS 性能通常较差。)我们的 AWR 报告显示,数据库将约 74% 的 DB 时间花在提交和回滚上(具体为 log_file_sync);

  • 好消息:尽管负载很重,每次同步的实际延迟仍然非常优秀,低于 2ms(平均 1.75ms)。磁盘子系统速度很快,只是被数据量压垮了;

  • CDC 影响:启用 XStream 要求向这条已经饱和的通道写入 47% 更多的数据(补充日志);

  • 结果:写入频率本身使日志写入器达到饱和,导致吞吐量下降约 9%。

战略要点:CDC 的成本主要体现在 I/O,而不是 CPU。如果你的生产数据库已经让 Log Writer(磁盘 I/O)达到饱和,启用补充日志会加剧这一瓶颈。然而,如果你有 I/O 余量,对事务吞吐量的影响将会很小。

DBA 最佳实践

基于这些数据,以下是安全启用 Snowflake Oracle Connector 的检查清单:

检查你的 I/O 余量(至关重要)

在启用 CDC 之前,检查当前的 log_file_sync 等待情况。

  • 如果你已经经常看到超过 5–10ms 的等待,请先解决存储 I/O 瓶颈;

  • CDC 增加的是数据量,而不是延迟——但如果通道已满,数据量就会变成延迟。

调整日志大小

传统的 500MB Redo Log 文件将不再够用。

  • 建议:将 Online Redo Log 大小增加到 4GB–8GB;

  • 原因:随着 Redo 量增加 47%,小日志会导致频繁的日志切换(检查点),从而暂停数据库。

“安全阀”:配置 STREAMS_POOL_SIZE

不要让 Oracle AI 源数据库通过 Shared Pool 自动管理这一部分。你必须隔离 XStream 内存。

  • 建议:分配一个专用的 STREAMS_POOL_SIZE(我们建议从 2.5 GB 开始);

  • 原因:这相当于一个断路器。如果复制管道变慢,或事务量激增,该池会被填满。当它填满时,XStream 会暂停。它不会占用你的缓冲区缓存。它不会导致实例崩溃。它只会产生延迟。这会优先保障 OLTP 稳定性,而不是复制延迟。

精准日志,而不是“全局开启”

在我们的场景中,我们记录了所有内容,以证明这一点。在生产环境中,你绝不应该运行 ALTER DATABASE ADD SUPPLEMENTAL LOG DATA (ALL) COLUMNS。

  • 建议:仅对正在复制的特定表启用补充日志。Snowflake Openflow Connector for Oracle 要求记录 ALL 列,以完整重构负载内容,但这应当精确应用于范围内的表,而不是整个数据库;

  • 命令:ALTER TABLE schema.table ADD SUPPLEMENTAL LOG DATA (ALL) COLUMNS。

请注意,这也可能是你重新审视业务需求和义务的好时机,因为对于关键任务数据表而言,可能还存在其他与合规相关的原因,需要启用额外的补充日志。

信任但要验证:监控脉搏

你无法管理无法测量的东西。使用以下特定视图,确保 XStream 保持健康,并遵守其资源边界:

  • V$XSTREAM_CAPTURE:检查 STATE(应为 CAPTURING CHANGES)和 LATENCY_SECONDS。这是你的主要延迟指标;

  • V$STREAMS_POOL_STATISTICS:监控 TOTAL_MEMORY_ALLOCATED。如果它达到你的 STREAMS_POOL_SIZE 上限,你就知道安全阀正在发挥作用(也能知道复制为何可能暂停);

  • V$XSTREAM_OUTBOUND_SERVER:确认连接器已连接,且状态为 SENDING CHANGES。

“零接触选项”:下游捕获(适用于极大规模)

如果你的生产数据库 CPU 长期运行在 80% 以上,或生成很高的 Redo 量(例如每天 1TB 到 20TB+),在主库上运行任何额外进程可能并不适合你。

  • 建议:使用 Downstream Capture 模式;

  • 方式:将你的 Redo Logs 发送到一个辅助的、被动的 Oracle 实例(下游挖掘数据库)。XStream 在那里运行;

  • 结果:生产源库上没有任何 CPU 或内存占用。对生产环境的唯一影响,是传输日志所需的网络带宽;

  • 附带收益:你的下游挖掘数据库只需根据 redo logs 进行规模配置,通常比主数据库小得多;并且该挖掘数据库可以运行最新的 Oracle AI Database 26ai 版本,从而为你的 CDC 客户端提供额外的性能和功能优势;

  • 请注意,在下游捕获模式下,仍然需要按照原始/生产源数据库(应用用户所连接的数据库)的核心数来计算/覆盖许可和定价。

结论

许多数据工程团队希望借助 Snowflake 获得洞察速度。许多运营团队希望借助 Oracle 获得稳定性和原始性能。这些目标并不互相排斥。

本文讨论的场景表明,XStream 是一项成熟、高效的技术。在一个中等规模的 AWS RDS 实例上,XStream 能够处理 37k TPS,且 CPU 开销仅为可以忽略的 3%。相关风险——尤其是 I/O 和日志量方面——是可确定且可管理的。对于使用更优基础设施来运行 Oracle AI 数据库的客户,例如 Exadata,使用基于 XStream 的 CDC 客户端(如 Snowflake Openflow)可以预期获得更好的整体结果。

我们构建 Snowflake Openflow Connector for Oracle,是为了利用这些原生内部机制,并优先考虑架构透明性和运营稳定性。

原文地址:https://medium.com/snowflake/demystifying-oracle-xstream-quantifying-the-impact-of-cdc-on-high-throughput-oltp-systems-2997395dda95

点击链接立即报名注册:Ascent - Snowflake Platform Training - China更多 Snowflake 精彩活动请关注专区