惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Google DeepMind News
Google DeepMind News
F
Fortinet All Blogs
阮一峰的网络日志
阮一峰的网络日志
Apple Machine Learning Research
Apple Machine Learning Research
爱范儿
爱范儿
WordPress大学
WordPress大学
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
J
Java Code Geeks
罗磊的独立博客
S
SegmentFault 最新的问题
V
V2EX
V
Visual Studio Blog
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
美团技术团队
博客园 - 三生石上(FineUI控件)
Stack Overflow Blog
Stack Overflow Blog
Y
Y Combinator Blog
MyScale Blog
MyScale Blog
D
Docker
Google DeepMind News
Google DeepMind News
Blog — PlanetScale
Blog — PlanetScale
M
Microsoft Research Blog - Microsoft Research
Martin Fowler
Martin Fowler
S
Secure Thoughts
B
Blog
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
www.infosecurity-magazine.com
www.infosecurity-magazine.com
Recent Announcements
Recent Announcements
MongoDB | Blog
MongoDB | Blog
C
Cisco Blogs
C
CERT Recently Published Vulnerability Notes
T
True Tiger Recordings
GbyAI
GbyAI
P
Proofpoint News Feed
P
Privacy International News Feed
Jina AI
Jina AI
The Cloudflare Blog
I
Intezer
AWS News Blog
AWS News Blog
Hacker News - Newest:
Hacker News - Newest: "LLM"
S
Security Archives - TechRepublic
NISL@THU
NISL@THU
The Register - Security
The Register - Security
Recent Commits to openclaw:main
Recent Commits to openclaw:main
P
Palo Alto Networks Blog
S
Schneier on Security
L
LINUX DO - 热门话题
C
CXSECURITY Database RSS Feed - CXSecurity.com
Security Latest
Security Latest
C
Cybersecurity and Infrastructure Security Agency CISA

InfoQ - 促进软件开发领域知识与创新的传播

买了卡不等于买到生产力:企业 Token 焦虑,逼出 AI Infra 新战场 Anthropic 推出 MCP 隧道,供私有代理访问内部系统 Agoda 构建多模态内容系统,链接图片和评论 别再骂 Claude 限速了,Anthropic Boris 亲口承认:最挑剔的用户,反而最离不开我们 为创造,再一次信仰之跃 |AdventureX 2026 开启招募 GitHub面临生存之战!多位员工曝内部乱象:独立文化要没了,封杀Claude Code才能“活” AI Coding 很强,为什么企业没提速? Gemini 3.5深夜登场,谷歌CEO劈柴亲自算账:速度快4倍、一年还省超10亿美元,曝内部已被颠覆 中经社发布“十五五”新产业研究智能体,可自主生成产业链分析报告 虚拟上下文窗口技术实现10倍扩容,联想天禧AI 4.0破解大模型长程推理难题 千问云发布,阿里云将模型路由、认证、用量查询全面 CLI、SKill化 TanStack 披露一起复杂的 npm 供应链攻击事件, 42 个包遭入侵 Vite 8.0 :基于 Rust 的统一打包工具,构建速度最高提升 30 倍 Fonttrio 发布:面向 shadcn/ui 的开源字体搭配注册表 Pip 26.1正式发布:上线依赖冷却机制与实验性锁定文件功能,抵御供应链攻击 阶跃星辰副总裁俞刚确认出席AICon上海站,分享多模态生成与理解的架构演进 Cloudflare 发布 Dynamic Workflows,将持久化执行扩展到按租户与按 Agent 动态运行的代码 每个企业都需要自己的 Token Factory?超聚变提出“智企”新范式 Navigation API 达基线版本,已经可以作为 History API 的替代方案使用 Cloudflare与Stripe推出新协议,让AI智能体创建账号、购买域名和进行生产部署 词元时代,万物智能 | 摩尔线程2026产品发布会:打造全场景AI算力基石 Altman拿Token换股权只够烧45天,20亿Token捐母校只值100块:Token真成“钱”了,谁更赚? 马斯克要当“太空版黄仁勋”:Anthropic一年上交150亿美元,Cursor百亿分手费锁死,SpaceX成新算力庄家 中国最神秘AI孵化器正式亮相:11位“大佬”导师成为超强外挂 从兼容 CUDA 到自我进化,摩尔线程想用 MUSA 解决真正的难题 OpenAI开源Symphony:面向自主编码智能体编排的SPEC规范文档 Ubuntu拥抱本地AI,而非云优先的操作系统集成 企业级Agent 落地,绕不开的 4 个工程问题 微软发布Aspire 13.3,迎来部署与前端重磅更新 腾讯混元世界模型的研发布局与思考|AICon上海 阿里发布新一代千问旗舰模型Qwen3.7-Max,登顶最佳国产模型 谷歌推出Cloud Fraud Defense,作为reCAPTCHA的继任者 AI Agent 最大的问题:它在企业里只是个“无名之辈” | 技术趋势 Cloudflare 推出支持确定性执行和 5 万个并发工作流的 Workflows V2 对话灵感实验室:全帧率 VLM、低成本与分层部署,业务现场不止需要炫技模型 10 天 3000 元,一人造出全球 AI 爆款!好莱坞导演抢人、游戏版引爆期待,合作细节首次披露 Anthropic 推出 Routines for Claude Code Snowflake Intelligence 合作伙伴生态:把 AI 能力带入千行百业 |技术趋势 一个隐蔽的循环依赖如何导致了 Discord 3 月份的语音服务中断 Arm 携手通义实验室,发起手机上的创意 AI 挑战赛 基准测试表明:AI智能体可修复独立漏洞,却难以理解系统范围影响 CIO 正在抛弃 AI 生码率:一场关于什么才算产研提效的实践复盘 外行式 Vibe Coding 正跟专业的Agent 工程走向融合:最吓人的是,我们“摆烂”有正当理由了? 不换 Kimi 底座,1/10 成本追平 Opus 4.7?Cursor 用 Composer 2.5 反击 Claude Code Snowflake Intelligence:从回答问题到执行任务的个人工作 Agent | 技术趋势 SolidJS 2.0 Beta:一级异步支持、重构的Suspense与确定性批处理 训推一体潮汐弹性:蚂蚁集团在智算基础设施的池化调度实践|AICon上海 如何在软件组织中扩展社会化的系统 Moonrepo发布moon v2.0:引入WASM插件工具链并重构CLI 蜂群Agent来了!openJiuwen社区发布JiuwenSwarm,引领Coordination Engineering新范式 Pinterest 工程师消除 CPU 僵尸进程,解决生产环境瓶颈 AMD苏妈对话李开复:AI转型只能由CEO驱动、未来“DRI”(直接负责人)将是企业核心|直击现场 8大岗位AI技能图谱 Anthropic发布工程事故报告,说明六周来Claude Code质量下降源于三项产品调整 05·29 腾讯云「数据库+AI」产品发布会重磅启幕 Airbnb 采用基于上下文的身份识别模型,支持隐私优先的社交功能 Anthropic首次揭秘下一代Claude怎么造!用户吐槽直接喂模型,连AI“做梦”都被训练 消息积压方面的数学知识:用于队列恢复的容量规划 Netflix借助Apache Druid中的区间感知缓存让84%的查询结果直接命中缓存 小红书 vibe coding 平台(Muse)之高可用人机共创 Agentic 系统架构实践|AICon上海 时序存储:影响成本与性能的设计选择 Cangjie:一门新的开源编译型语言,原生支持效应处理器和代数数据类型 Snowflake Observe:可观测性与 AI 数据云的融合 | 技术趋势 Golden Question 征集令|把你的 AI 落地之问带去 Snowflake Summit 26 H200还没到中国,Anthropic先急了:千亿美元抢芯片,转头涨价让开发者买单 曝Kimi 后训练团队研究员离职,曾为K2.5贡献者;MiniMax最新招聘,兼职也拿期权;传蜜雪CEO隔空回复黄仁勋,“大佬同款”卖爆|AI周报 从第一性原理出发:那些构建 Snowflake 的理念,以及下一步走向 | 技术趋势 Coder Agents让企业能够在自托管基础设施上运行AI编码工作流 超越基准:采用基于指标的方法在真实设备上维持iOS长期的良好性能 Java新闻汇总:GraalVM、Spring AI、JobRunr、GlassFish、Grails、Groovy和Quarkus Agent MCP 一个二十多年老兵的忧心:那条从Debug开始走向资深工程师的路,正在崩塌 从 Vibe Coding 到需求托管交付 Agent,菜鸟 AI 研发效能实践|AICon上海 从批处理迁移到微批次流式处理的实战经验 AI 的“最后一公里”:本地执行与全场景硬件接入的下一代 Agent 中枢|AICon上海 ChatGPT 可以帮你理财了,但它也知道你的全部余额!用户:谢谢不用了 记忆感知的大模型 KVCache 优化|AICon上海 Kubernetes v1.36 发布:安全默认配置强化,AI 工作负载支持日趋成熟 百度想明白了:旧供给到达极限了 “一人公司”正在重做AI创业?极客部落首场16个OPC项目路演:AI 创业已从“卷模型”转向“卷闭环” 当AI助手进化为自主智能体:英伟达如何携手 SAP 重构企业级“信任逻辑”? JEP 533 加强 JDK 27 中 Java 结构化并发的异常处理 兼顾效率、成本与能力,百灵开源旗舰推理模型 Ring-2.6-1T Grafana Pyroscope 2.0:实现持续性能分析规模化落地 AdonisJS v7 推出端到端类型安全、经过重构的项目模板以及零配置 OpenTelemetry Anthropic 推出 Claude Platform on AWS 鼠标每动一下都在训练AI,Meta员工“造反”了:厕所、会议室都贴满抗议传单 GitHub 推出 MCP 服务器集成,全面扩展机密扫描功能 蚂蚁灵波开源LingBot-VLA真机后训练全流程代码,150条示教数据即可适配新机器人 科大讯飞面向超大规模教育场景的 Agent 系统架构演进与工程实践|AICon上海 复制失败与脏碎片:Linux 页面缓存漏洞影响所有主流发行版 当 Agent 开始接管工作流,企业最在意的三件事:安全运行、稳定交付、持续进化 当 Agent 开始接管工作流,企业最在意的三件事:安全运行、稳定交付、持续进化 龙虾犯错,员工背锅?Agent 需要安全、稳定与持续进化的底座 拒掉字节、谷歌橄榄枝,Meta 离职大佬田渊栋官宣自立门户!苏妈老黄追着投 把 UI 生成接进流水线:基于半监督评测体系的 UI 自动化生产实践 AWS 改进 Aurora Serverless:扩容速度提升 45%,吞吐量提高 30% 从服务器 OS 到 Agent 沙箱:腾讯云如何打通 AI Infra 的生态底座 AWS WorkSpaces 支持 AI 智能体直接操作遗留桌面应用程序 Gemini 进手机,Android 翻身;Gemini进电脑,全网开喷! 本地优先 AI 推理:高性价比文档处理云架构模式
把 RAG 做成主流的公司,现在开始“做空”RAG 了
Tina · 2026-05-13 · via InfoQ - 促进软件开发领域知识与创新的传播

Pinecone 刚刚几乎等于亲口宣布:RAG 时代结束了。

作为向量数据库赛道的开创者,Pinecone 当年亲手把 RAG 定义成了大语言模型 grounding 的标准范式。过去几年里,大约 80 万开发者、9000 家付费客户,都在 Pinecone 的基础设施上学习如何切 chunk、做 embedding、跑 retrieval。而随着本周一发布面向 Agent 的知识引擎 Nexus,Pinecone 现在却开始告诉这些开发者:他们过去学会的那套模式,如今反而成了瓶颈。

Pinecone 亲手定义的赛道,如今被它亲手判了过时

如果仔细看 Pinecone 对 Nexus 的描述,会发现它几乎是在重新定义整个 retrieval 模式。它把 retrieval-at-inference(推理检索)形容成“Agent 检索的十条蓝色链接时代(the ten blue links era of agentic retrieval)”。

这里的“十条蓝色链接”,其实是在借用早年搜索引擎的经典意象:搜索引擎只负责甩给你一堆链接,用户自己点进去、自己阅读、自己拼信息。Pinecone 的意思是,现在很多 Agent 的 retrieval,本质上也还停留在这种“AI 版搜索引擎”阶段——不停 retrieve、read、再 retrieve。

它给出的数据是:

陷在 retrieve-read-retrieve 循环里的 Agent,任务完成率通常只有 50% 到 60%;而且 Agent 85% 的精力,其实都消耗在“找上下文”这件事上。

Pinecone 的核心观点是:把一堆原始 chunk 直接丢给前沿模型,然后期待模型自己理解、自己推理,这套方式既脆弱、又慢,还非常昂贵。

而这套描述,其实就是换了个名字的 RAG。过去四年里,Pinecone 一直在推动的正是这套模式:教程、培训内容、开发者关系体系,几乎全都围绕它展开。只是现在,向量数据库已经不再是面向开发者的“产品表层”,而变成了更底层的基础设施。真正的产品层,又往上移动了一层。

这种级别的“自我揭短”其实很少见。大多数基础设施厂商,即便已经意识到旧模式在衰退,也会继续卖旧东西,等市场自己慢慢察觉。但 Pinecone 成了第一个主动把这件事说出来的厂商,他们表示:“Agent 时代需要一些不同的东西。”

“知识编译”正在取代 RAG

Pinecone 现在的新关键词叫“Knowledge Compilation(知识编译)”。核心变化,其实是把“推理”提前了。

他们表示今天的 Agent,其实还无法真正表达“自己需要什么”。这不是功能缺失,而是更底层的结构性缺口。

现在几乎每一个做 Agent 应用的团队,都在重复造同样的 retrieval 轮子:自定义工具定义、在 Agent 框架和数据源之间写一堆胶水代码、做各种一次性的集成,而这些东西只要底层稍微变化一下就会崩掉。整个行业至今都没有一套统一的“知识请求语言”,让 Agent 能清楚表达自己究竟想从知识系统里得到什么。

这其实不是第一次发生类似的事。在 SQL 出现之前,每个应用也都得自己实现一套数据访问层。后来 SQL 给关系型数据库提供了一个通用接口,整个应用生态才真正建立起来。真正改变行业的,不只是数据库本身,而是那个统一接口。

现在 Agent 也走到了类似的结构性时刻。而且,有些东西,它们今天甚至根本“说不出来”。

“直接把答案给我,而不是二十段 chunk。”

现在没有统一的输出结构约定,Agent 拿到的往往还是原始文本,每次调用之后都得重新解析,token 消耗也随之暴涨。

“告诉我答案来自哪个来源,以及它的可信度。”

今天大多数系统都缺乏字段级别的 grounding,Agent 没法区分哪些是事实、哪些只是模型猜测,于是输出天然不稳定,也缺乏治理能力。

“把推理深度控制在标准范围内,并在 500 毫秒内返回。”

现在没有统一的 budget envelope(预算边界)。每次调用可能无限下钻、无限延长,最终结果就是不可预测、缓慢而浪费。

KnowQL 想解决的,就是 Agent 缺失的这套“表达能力”。

过去的模式里,Agent 会在查询时临时抓取二十段 chunk,再疯狂消耗 token 去理解这些内容到底是什么意思;而 Nexus 的做法,是提前把源数据预编译成带类型、可引用、面向具体任务的知识产物(artifacts)。Agent 查询的不再是原始语料库,而是这些已经整理好的 artifacts。

KnowQL 则给 Agent 提供了一套完成这件事的“语言”。它把 intent(意图)、filter(过滤)、provenance(来源)、output shape(输出格式)、confidence(置信度)以及 latency budget(延迟预算)这六个 primitive,封装进一次声明式调用里,最终直接返回一个带引用、结构化的结果。

Pinecone 声称,这种方式能把任务完成率提高到 90% 以上,同时把 token 开销降低 90%。这些数字当然还需要生产环境验证,暂时别太早全信。但就算不看具体数字,方向其实已经很明确了:“编译一次,多次复用(compile once, read many times)”,本来就更适合 Agent 工作负载。

而且,往这个方向走的,也不只有 Pinecone 一家。更大的趋势,其实是:整个 AI 世界都在把“推理”往上游移动。

Anthropic 推出的 Skills,本质上就是预编译、可复用的上下文包;Cursor 的 Rules,在编辑器层做的是同一件事;Claude Code 的 subagents,会为不同任务提前打包上下文和工具;而 LangChain 的 Harrison Chase 这几个月一直在强调的“context engineering”,也是同一个方向。现在,Pinecone 只是把这种思路推进到了 retrieval 层。

这个模式本身并不新鲜。真正新鲜的是:第一个公开宣布它的人,居然是 Pinecone 自己。当然,也有人会提出合理质疑。KnowQL 能不能像 SQL 那样成为真正的标准,还有很长的路要走。毕竟,标准不是某一家厂商一句话就能定义出来的。向量检索本身也不会消失,很多 Agent 工作负载依然需要廉价、快速的文本相似度搜索。真正变化的,是价值所在的位置。

如果未来 12 个月的发展,真的像 Pinecone 押注的那样,那么向量搜索会慢慢变成“水电煤”一样的基础设施;Knowledge Compilation 才会成为真正的产品层;而“RAG pipeline”这个词,最后可能会像今天的“LAMP stack”一样,变成一种带着敬意的历史名词。

最可能判断错的,其实也是“时间点”。因为一个技术范式的衰退,往往都会比厂商宣告它“结束”时来得更慢。但大的方向已经很明显了。而最先把这个方向说出来的,偏偏正是当年亲手把 RAG 做成主流的那家公司。

那个曾经教你怎么做 RAG 的厂商,现在开始告诉你:别再这么干了。

参考链接:

https://www.pinecone.io/blog/knowledge-infrastructure-for-agents/

https://thenewstack.io/pinecone-nexus-rag-obsolete/