惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

WordPress大学
WordPress大学
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
小众软件
小众软件
MyScale Blog
MyScale Blog
B
Blog
Apple Machine Learning Research
Apple Machine Learning Research
D
DataBreaches.Net
博客园 - 三生石上(FineUI控件)
A
Arctic Wolf
S
Schneier on Security
H
Hackread – Cybersecurity News, Data Breaches, AI and More
博客园 - 叶小钗
L
LINUX DO - 热门话题
Cisco Talos Blog
Cisco Talos Blog
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
Security Latest
Security Latest
博客园 - Franky
大猫的无限游戏
大猫的无限游戏
云风的 BLOG
云风的 BLOG
Microsoft Azure Blog
Microsoft Azure Blog
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
A
About on SuperTechFans
酷 壳 – CoolShell
酷 壳 – CoolShell
量子位
C
Cyber Attacks, Cyber Crime and Cyber Security
The Cloudflare Blog
宝玉的分享
宝玉的分享
Scott Helme
Scott Helme
L
LangChain Blog
人人都是产品经理
人人都是产品经理
Y
Y Combinator Blog
F
Fortinet All Blogs
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
Blog — PlanetScale
Blog — PlanetScale
C
Cisco Blogs
P
Palo Alto Networks Blog
Microsoft Security Blog
Microsoft Security Blog
The GitHub Blog
The GitHub Blog
美团技术团队
博客园 - 【当耐特】
C
Cybersecurity and Infrastructure Security Agency CISA
G
GRAHAM CLULEY
The Register - Security
The Register - Security
罗磊的独立博客
月光博客
月光博客
C
Check Point Blog
F
Full Disclosure
C
CXSECURITY Database RSS Feed - CXSecurity.com

InfoQ - 促进软件开发领域知识与创新的传播

Meta 收购 Manus 这事儿泡汤了 5.5万 Star 开源项目 Ghostty 被迫出走,GitHub 正在终结一代技术人的乌托邦 Slack 长时运行多智能体系统的上下文管理方案 从 T+1 到分钟级:金城银行基于 Apache Doris 构建高可靠、强一致的实时数据平台 谷歌云推出 Agents CLI,简化 AI 智能体开发全流程 Claude官方击穿高薪、高学历的安全防线!Anthropic点名10大高危职业,但有群人暂时稳了 亚马逊云科技终止 WorkMail 服务,并将 App Runner 转入维护模式 OPPO小布记忆:全模态碎片化内容的理解与智能整理实践|AICon上海 模力工场038周AI应用周榜:工具在消失,工作流在出现 Akamai CEO Tom Leighton:Agent 时代来临,云基础设施正从“中心化”转向“分布式边缘” 日均数百亿入库背后:从“人肉调度”到K8s弹性架构,度小满金融基于OceanBase重构入库架构实践 百度文库网盘发布GenFlow 4.0:月活用户超1亿,要把网盘变成全端AI工作台 Altman 投的 Agent 终端 Warp 开源了!斩获3.5万star 哪些客户需要拒, 敢让龙虾决定吗?_AI&大模型_InfoQ 中文站_InfoQ精选视频 从开发到生产:为什么越来越多的机器学习团队纷纷迁移到 Snowflake | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 探索多智能体工作流:LangGraph Snowflake Cortex AI | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 腾讯云分布式缓存数据库:AI Agent - 从提示词工程到 Harness 工程 | 腾讯云数据库 DBTalk_腾讯_凌敏_InfoQ精选视频 基于 Streamlit 为 CSV 数据构建分析智能体 | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 AI 智能体:告别文档缺漏 | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 构建 AI 驱动的数据管道:深度探讨 Snowflake Openflow 与非结构化数据 | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 云端太贵、本地不够聪明,英特尔押注“端云混合AI”:智能体PC会替人完成工作 不到10%的存储投入,可能拖垮90%的GPU投资!IBM把AI Agent塞进存储系统,算清企业最容易忽略的一笔账 Snowpark 上手实战 | BUILD 2025_大数据_王玮_InfoQ精选视频 ClickHouse + Langfuse,构建 Agent 可观测基石 腾讯云分布式缓存数据库:Cluster Proxy 共享连接架构深度解析 | 腾讯云数据库 DBTalk_腾讯_凌敏_InfoQ精选视频 AI 写代码太烧钱了:Copilot、Claude 一起涨价,不如把程序员请回来? 英特尔发布至强600系列工作站处理器与锐炫Pro B70 GPU,全新AI工作站来了 腾讯云分布式缓存数据库:从 Redis 到 Valkey - 开源社区如何快速创新 | 腾讯云数据库 DBTalk_腾讯_凌敏_InfoQ精选视频 印奇这次要“从0重做”智驾模型!首谈阶跃和千里双公司布局:中国AI商业闭环要靠车跑出来 从Cursor返聘归来,90后华裔女高管带Claude开启日更模式:token成本比工程师工资低多了! 从 Coding 到 Agent:QCon 北京 2026 全景复盘,优秀出品人 & 明星讲师名单揭晓 全链路支撑大模型国产化“Day 0适配”,商汤大装置构建全栈能力底座 凌晨,OpenAI 与亚马逊云科技史上最大联合发布来了 HashiCorp Vault 2.0 发布:引入新身份联邦机制,迈入 IBM 生命周期体系 Yelp 实现超 1,000 个 Cassandra 节点零停机升级 写了 17 年开源代码,我为什么认为 Coding Agents 堆功能是在瞎折腾? 基于 Apache Camel 编排智能体与多模态 AI 管道 面向智能体与人类用户的AI记忆系统:架构设计与核心场景实践|AICon上海 Anthropic 推出 Managed Agents,简化 AI 代理部署流程 阿里HappyHorse开启灰测,720P视频生成低至0.44元/秒 讯飞联合清华团队押注量子AI:不看营收、不设KPI,一群“无人区”科学家,抢夺下代AI算力入口 小米万亿模型全面开源:MIT 协议、1M 上下文,但还是打不过 DeepSeek Cortex Code 入门指南:面向数据工程师的实践路径 | 技术实践 openJiuwen社区首发Team Skills,定义Coordination Engineering新范式 用 Snowflake Cortex Agents 释放结构化数据的最大价值 | 技术实践 Grafana 利用 Kafka 对 Loki 进行了架构重构,并发布了一款命令行工具,旨在将可观测性引入编码代理 ClickHouse重构全文索引:对象存储上跑出高性能 Full-Text Search 可观测性和遥测技术如何提升软件工程实践 Dropbox 与 GitHub 合作,将单体库大小从 87GB 缩减至 20GB Agent 的下一站:基于长期记忆系统 EverOS 的自我演进|AICon上海 同一赛道,四种收费:Agent 控制层(Harness)开始分裂 Cloudflare Sandboxes 正式发布,为 AI 代理提供持久化隔离环境 Agent 的“记忆断片”困局,该怎么破?_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选视频 数据分析师如何快速建立在 AI 时代最值钱的能力:一份可落地的行动路线图 摩尔线程最新财报:研发占比超86%,万卡级大规模智算集群落地 当云区域失效:地缘动荡环境下的高可用重构 Slack 重构通知系统,设置参与度提升 5 倍 智能体工程的隐性技术债务 “我把所有模型都换成了DeepSeek V4”:月账单将降 90%,效果还更好 阿里云智能集团高级技术专家刘少伟已确认出席AICon上海站,并分享如何构建企业 Agent 的自动化行动架构 构建生产就绪的 tRPC API:Apollo Federation 的 TypeScript 替代方案 Anthropic推出面向Claude Code的基于智能体的代码审查功能 北京车展直击:斑马智能甩出车载Agent短剧,比亚迪率先落地,AI让智能座舱又热起来了 Snowflake 作为智能体运行时:从静态管道迈向自主数据系统 | 技术实践 Snowflake 上的本体体系:基于 Cortex Code 能力实现从架构到部署 | 技术实践 Cloudflare 公布 MCP 架构方案,应对企业面临的安全与治理风险 复杂的项目管理怎么做到「AI 友好」?飞书项目用「开放」给出答案 Snowflake Cortex Code 的规范驱动开发:将 SDLC 方法论引入 AI 辅助工作流 | 技术实践 Copilot 不让注册了:从“随便用”到“全面限”,agent 把原有订价模型顶穿了 当互联网用AI卷效率时,这家公司先问了一连串“能不能” Meta 开始记录员工每一次点击:AI 要接管工作,先监控会工作的人 Meta“Token榜”逼疯打工人,一夜烧掉公司几万刀!AI时代Token焦虑越来越离谱 智源FlagOS完成DeepSeek-V4-Flash在八款芯片Day0适配,实现三重技术突破 DeepSeek V4 重磅开源!首次打通华为Ascend,也没丢掉英伟达,百万上下文夺回国产模型话语权 李志飞的“新实验”:当超级个体撞上真实组织 GPT-5.5 登顶时刻,Anthropic 亲口承认 Claude 变笨了!网友群嘲:太敷衍 那些没空写的小需求,龙虾真能做吗?_AI&大模型_InfoQ 中文站_InfoQ精选视频 从 Pandas 到生产:使用任意 IDE 进行可扩展的 ML 数据管道与分布式处理 | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 pnpm 11 候选版本发布,带来 ESM 分发、供应链默认设置以及新的存储格式 银行业PDF表格提取方案重构:基于Java的分层方案 GPT-5.5 赢了 Opus 4.7 和 Mythos?奥特曼晒黄仁勋内部信:英伟达全员用上 Codex! Cloudflare 推出 Think:一款面向 AI 代理的持久化运行时 1850亿美元天价支出、75%代码由AI生成!谷歌正式宣告:全面转向智能体工作流 xAI落后太多,马斯克“开大”重金求购Cursor,100亿美金“分手费”都敢签! Pulumi 新增对 Bun 运行时的全面支持 姚顺雨腾讯模型首秀!不卷参数只做 “听话打工人”,Hy3 preview登场 | 附实测 老板让你“忽悠”投资人,你敢发给龙虾吗?_AI&大模型_InfoQ 中文站_InfoQ精选视频 Gemini CLI 引入子代理机制,实现任务委派与并行代理工作流 清华系团队星工聚将完成数千万天使轮融资,轮式机器人拿下头部制造企业亿级大单 Pretext.js 绕过 DOM 布局重排,实现 120 FPS 的高级交互体验 靠“AI 云”爆红的 Vercel,栽在一个第三方AI工具手里!IPO前夕遭黑,200万美元赎金谈崩? 高能研讨会|端侧 AI 正在重写实时感知效率上限_AI&大模型_王玮_InfoQ精选视频 2050大会看这篇就够了|报名、交通食宿指引大全 Java 近期资讯:OpenJDK JEP、Jakarta EE 12、Spring Framework、Micrometer、Camel、JBang 金融智能的架构编排:基于 Snowflake Cortex Agents 实现结构化与非结构化数据统一分析 | 技术实践 在AK大神爆火的任务里,摸清国产AI真实水平 百灵Ling-2.6-flash 正式发布:高 Token 效率,以 1/10 消耗实现 SOTA 级 Agent 能力 当 PM 懂AI,当技术懂产品:AI 时代产品力的双向进化|PM x AI产品力领航者大会即将开幕 为 AI 智能体设计记忆机制:揭秘 LinkedIn 的认知记忆智能体 获奖名单公布|2026主题征文第一期|分享你最有价值的龙虾场景与核心 Skill_热门活动_InfoQ写作社区官方_InfoQ写作社区
写代码可以 Vibe Coding 了,为什么办公还不能 Vibe Officing?
卢阳Tina · 2026-06-15 · via InfoQ - 促进软件开发领域知识与创新的传播

作者 | 卢阳

开源地址:https://github.com/officecli/officedex

大家已经很熟悉 Vibe Coding 的工作方式了,但 Vibe Officing 鲜有人提及。本文将站在资深研发的视角,从技术层面探讨现在市面上 AI+ 文档的工具与 Vibe Officing 之间的距离,分析为何 HTML 和 Markdown 都无法承载这种工作方式,并给出基于 OOXML 的解决方案。

我是一个出海创业者,用 Vibe Coding 写了好几个产品。在产品的推广和运营阶段,我的时间基本上都花在写材料了,为此统计了一下自己的时间成本:因为 Vibe Coding 是异步的,我真正投入其中的时间只占两成,而处理 Reddit、X、投资人的文档等工作花了八成时间。

体验过很多 Office+AI 产品,我发现没有一款完全符合我的需求,写文档还是很浪费时间。我原以为是我用的方式不对,但经过对这些产品原理的研究,我认为现在很多 Office+AI 工具的路根本就走错了,走的方向并不是 Vibe Officing。

刚开始使用 Manus 和 Genspark 的时候,我觉得应该能省不少时间,只需要输入一句话,浏览器里过一会儿就出现了“成品展示”,有标题有配色有排版,像模像样的。可当我真的把 pptx 下载下来,在本地打开它时,就发现很多细节上的不一致:标题位置跑掉,原本应该可编辑的数据图表变成图片,复杂布局被压平等等。我花了很多时间去一个个对齐、重调,终于改好了,又觉得第 6-10 页的文案有点问题,需要让 AI 批量改下,这时才发现这个 PPT 无法回传给 AI 继续处理。这些产品只能算是素材生成器,还远谈不上 Vibe Officing。

现在的 Vibe Coding 也需要人与 AI 的交互,人的 review 和修改还是必不可少的。Vibe Coding 能成立,是因为它的用户是程序员,程序员会读也会写代码,AI 和人改了代码后,对方都能读懂,也会修改,这个循环是通的。

但同样的场景搬到 AI 办公来就不行了,办公文件不是一段纯文本。它有页面,有图片,有图表,有批注,有主题,有母版,还有很多看起来像“排版细节”的业务信息。人改过之后,AI 需要能读懂,AI 改完后,人也要能看到效果并自己上手改。如果做不到这种程度,第一轮生成再快也救不了后面的返工,所以很多 Office+AI 的产品 demo 看上去很顺,可一旦放进真实工作里就很别扭。

迈向 Vibe Officing 的三道坎

上文提到,Vibe Coding 能成立,是因为代码天然适合人机共同维护,源码可读、可改、可执行、可测试。现在大多数 Office+AI 不能成立,有以下三大原因:

人机协作无法闭环

Office + AI 的软件和用户需求之间隔着执行鸿沟和评估鸿沟。用户想让 AI 做的是“修改 PPT 第 6 到 10 页的正文内容,但版式、配色都不要变”,但 AI 做的是 “重新生成了一份看起来符合用户需求的 PPT”,这是执行鸿沟。AI 生成的产物在浏览器上预览没问题,但下载下来后样式出现错乱,对象属性变了,这里出现了评估鸿沟。这两大鸿沟直接决定了人机协作无法闭环。

缺少可持续修改性

受限于用户自身对需求的理解以及提示词撰写能力, AI 生成的产物几乎不可能做到首版即可用。因此在所有的 AI 生成领域,“局部修改”都是用户极为看重的能力。例如 AI 生成图片后,如果无法稳定局部微调,就只能多次“抽卡”来祈祷获得想要的结果,在局部微调稳定后,AI 生图就迈向了 AI 生视频的时代。同样,AI 生成文档必须要能回传给 AI 执行继续修改,在实际工作中才有意义。

协作介质不够权威

协作介质指的是人和 AI 多轮协作时共同操作的格式。人会通过协作介质的效果来做出判断,所以协作介质必须权威:AI 修改、人工编辑、预览、最终导出都要以它为准。例如开发前端静态页面时,HTML 就具有权威性。在生产办公文当时,协作介质就必须在预览时与最终交付产物完全相同。

Markdown 和 HTML 都不合适

Claude 团队早些时候发了一篇文章: Using Claude Code: The unreasonable effectiveness of HTML 激起了 Vibe Coding 社区的讨论。我很认同这个观点,人类在 Vibe Coding 的过程中与 AI 同样重要,Markdown 是迁就 AI 的方案,对人类并不友好,给人演示设计方案的时候 HTML 比 Markdown 更高效。

在办公文档领域,Markdown 很适合做 README、笔记和简单的技术说明,它很轻,源码可读。但它本质上是线性文本格式,图片在其中通常只是一个 ![]() 引用。

在非开发者环境下的办公文档需要的东西多得多,图片要有锚点,要能裁剪,要能和正文发生位置关系,幻灯片里还有占位符,母版,主题和图表对象等元素,这都是 Markdown 难以表达的东西。HTML 在表达能力比 Markdown 强很多,Claude 团队力推 HTML 就是因为它能让 AI 输出可浏览的页面来供人类决策。

但在办公文档场景,HTML 也不合适。首先它只能阅读,程序员才知道怎么编辑它。其次它存在导出失真的问题,就如前文说的 Manus 和 Genspark 的体验,基于 HTML 的预览都只能说是“仅供参考”。

OOXML 为什么更合适

我更看好原生的 OOXML 。ECMA-376 对 Office Open XML 做了标准化定义,包括文档的 vocabulary、document representation 和 packaging 方式。Microsoft 的 Open XML 文档也明确说明,Open XML 文件由 package、parts 和 relationships 组成;WordprocessingML、PresentationML、SpreadsheetML 分别对应 Word、PowerPoint、Excel 的文档结构。

DOCX、PPTX、XLSX 本质上都是一个 ZIP 包,解压后,里面是一组 XML parts,这组数据文件包含了正文内容、样式、主体、图片图标、批注、文件关系等。 每种 part 一类信息,parts 之间再通过 relationships 连接起来。所以一份原生的 Office 文件是一个小型文档 Project。AI 把它当做代码项目,需要修改时可以按需读取和修改关键文件,对 AI 来讲,就是在写代码。

LLM 对 OOXML 是非常熟悉的,Office Open XML、Open Packaging Convention、Office 自动化、格式转换、python-docx、python-pptx 这类工具链,长期存在于公开文档和代码仓库中。对模型来说,解开 ZIP 包、遍历 XML 树、按命名空间定位节点、根据 relationships 追踪图片和图表引用,都是接近代码理解和代码修改的任务。

OOXML 的特性对应了前面提到的三道坎:

它能让协作闭环成立,AI 修改的是原生文件结构,人看到和继续编辑的也是同一个文件,不需要在 HTML 预览和 Office 文件之间来回转换。执行对象和评估对象一致,执行鸿沟和评估鸿沟都会小很多。

OOXML 支持可持续修改,它是个小型代码项目,AI 可以做到局部修改,保留其他不涉及到的内容。

它可以成为权威协作介质。DOCX、PPTX、XLSX 既是 AI 操作的对象,也是用户本地编辑的对象,还是最终交付的对象。协作介质、编辑介质和交付介质是同一个东西,多轮人机协作不会在格式转换中断掉。

所以 OOXML 是 Vibe Officing 最合适的底座。

我的 Vibe Officing 尝试

我的日常工作中文档调整占比很大,市面上又找不到真正好用的工具,所以我基于上文的思路,自己做了一个工具,叫 OfficeDex。该工具基于我日常工作中的实际需求而开发,我会在使用过程中不断优化它。

OfficeDex 把目标文件设为原生 .docx/.pptx/.xlsx,这对应了前面说的人机协同、原生格式、图文混排和 OOXML。这也是我理解的 Vibe-Officing:并不是模仿 Vibe Coding 的命名,因为他它本质上仍然是在写代码,OOXML 的代码。Vibe Coding 的产物是应用和服务。Vibe Officing 的产物落是办公文档:OOXML 负责结构,图表对象负责数据可视化,样式系统和版式规则负责页面,数据绑定把内容接回业务信息。

用户说“帮我做一份能给客户看的方案”时,Vibe Officing 产品不仅要输出一个文档,更重要的是,用户和 AI 可以围绕同一个文件对象继续工作。OfficeDex 以桌面客户端的形式,在践行这个理念。

作者简介:

出海产品创业者,Founder of OfficeDex & OfficeCLI,如果你也对出海有兴趣,欢迎一起交流。微信:Delay_M

今日好文推荐

Anthropic冲刺IPO:Claude一个月烧掉客户5亿美元,却成了上市前最强广告

Token 卖疯了挣的也是小钱,Snowflake 盯上了 AI 时代最贵的资产

“AI写的代码无一例外都是垃圾”:编程语言Zig的硬核宣言

Codex 500万用户福利被怼“作秀”!Claude Code 吃掉近九成 Token,OpenAI 抢用户败在“小气”上?