Build 2026：Azure API Management 推出统一模型API并新增MCP内容安全能力

InfoQ - 促进软件开发领域知识与创新的传播

Meta 收购 Manus 这事儿泡汤了 5.5万 Star 开源项目 Ghostty 被迫出走，GitHub 正在终结一代技术人的乌托邦 Slack 长时运行多智能体系统的上下文管理方案从 T+1 到分钟级：金城银行基于 Apache Doris 构建高可靠、强一致的实时数据平台谷歌云推出 Agents CLI，简化 AI 智能体开发全流程 Claude官方击穿高薪、高学历的安全防线！Anthropic点名10大高危职业，但有群人暂时稳了亚马逊云科技终止 WorkMail 服务，并将 App Runner 转入维护模式 OPPO小布记忆：全模态碎片化内容的理解与智能整理实践｜AICon上海模力工场038周AI应用周榜：工具在消失，工作流在出现 Akamai CEO Tom Leighton：Agent 时代来临，云基础设施正从“中心化”转向“分布式边缘” 日均数百亿入库背后：从“人肉调度”到K8s弹性架构，度小满金融基于OceanBase重构入库架构实践百度文库网盘发布GenFlow 4.0：月活用户超1亿，要把网盘变成全端AI工作台 Altman 投的 Agent 终端 Warp 开源了！斩获3.5万star 哪些客户需要拒, 敢让龙虾决定吗?_AI&大模型_InfoQ 中文站_InfoQ精选视频从开发到生产：为什么越来越多的机器学习团队纷纷迁移到 Snowflake ｜ BUILD 2025_AI&大模型_王玮_InfoQ精选视频探索多智能体工作流：LangGraph Snowflake Cortex AI ｜ BUILD 2025_AI&大模型_王玮_InfoQ精选视频腾讯云分布式缓存数据库：AI Agent - 从提示词工程到 Harness 工程 | 腾讯云数据库 DBTalk_腾讯_凌敏_InfoQ精选视频基于 Streamlit 为 CSV 数据构建分析智能体｜ BUILD 2025_AI&大模型_王玮_InfoQ精选视频 AI 智能体：告别文档缺漏｜ BUILD 2025_AI&大模型_王玮_InfoQ精选视频构建 AI 驱动的数据管道：深度探讨 Snowflake Openflow 与非结构化数据 | BUILD 2025_AI&大模型_王玮_InfoQ精选视频云端太贵、本地不够聪明，英特尔押注“端云混合AI”：智能体PC会替人完成工作不到10%的存储投入，可能拖垮90%的GPU投资！IBM把AI Agent塞进存储系统，算清企业最容易忽略的一笔账 Snowpark 上手实战｜ BUILD 2025_大数据_王玮_InfoQ精选视频 ClickHouse + Langfuse，构建 Agent 可观测基石腾讯云分布式缓存数据库：Cluster Proxy 共享连接架构深度解析 | 腾讯云数据库 DBTalk_腾讯_凌敏_InfoQ精选视频 AI 写代码太烧钱了：Copilot、Claude 一起涨价，不如把程序员请回来？英特尔发布至强600系列工作站处理器与锐炫Pro B70 GPU，全新AI工作站来了腾讯云分布式缓存数据库：从 Redis 到 Valkey - 开源社区如何快速创新 | 腾讯云数据库 DBTalk_腾讯_凌敏_InfoQ精选视频印奇这次要“从0重做”智驾模型！首谈阶跃和千里双公司布局：中国AI商业闭环要靠车跑出来从Cursor返聘归来，90后华裔女高管带Claude开启日更模式：token成本比工程师工资低多了！从 Coding 到 Agent：QCon 北京 2026 全景复盘，优秀出品人 & 明星讲师名单揭晓全链路支撑大模型国产化“Day 0适配”，商汤大装置构建全栈能力底座凌晨，OpenAI 与亚马逊云科技史上最大联合发布来了 HashiCorp Vault 2.0 发布：引入新身份联邦机制，迈入 IBM 生命周期体系 Yelp 实现超 1,000 个 Cassandra 节点零停机升级写了 17 年开源代码，我为什么认为 Coding Agents 堆功能是在瞎折腾？基于 Apache Camel 编排智能体与多模态 AI 管道面向智能体与人类用户的AI记忆系统：架构设计与核心场景实践｜AICon上海 Anthropic 推出 Managed Agents，简化 AI 代理部署流程阿里HappyHorse开启灰测，720P视频生成低至0.44元/秒讯飞联合清华团队押注量子AI：不看营收、不设KPI，一群“无人区”科学家，抢夺下代AI算力入口小米万亿模型全面开源：MIT 协议、1M 上下文，但还是打不过 DeepSeek Cortex Code 入门指南：面向数据工程师的实践路径｜技术实践 openJiuwen社区首发Team Skills，定义Coordination Engineering新范式用 Snowflake Cortex Agents 释放结构化数据的最大价值｜技术实践 Grafana 利用 Kafka 对 Loki 进行了架构重构，并发布了一款命令行工具，旨在将可观测性引入编码代理 ClickHouse重构全文索引：对象存储上跑出高性能 Full-Text Search 可观测性和遥测技术如何提升软件工程实践 Dropbox 与 GitHub 合作，将单体库大小从 87GB 缩减至 20GB Agent 的下一站：基于长期记忆系统 EverOS 的自我演进｜AICon上海同一赛道，四种收费：Agent 控制层（Harness）开始分裂 Cloudflare Sandboxes 正式发布，为 AI 代理提供持久化隔离环境 Agent 的“记忆断片”困局，该怎么破？_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选视频数据分析师如何快速建立在 AI 时代最值钱的能力：一份可落地的行动路线图摩尔线程最新财报：研发占比超86%，万卡级大规模智算集群落地当云区域失效：地缘动荡环境下的高可用重构 Slack 重构通知系统，设置参与度提升 5 倍智能体工程的隐性技术债务 “我把所有模型都换成了DeepSeek V4”：月账单将降 90%，效果还更好阿里云智能集团高级技术专家刘少伟已确认出席AICon上海站，并分享如何构建企业 Agent 的自动化行动架构构建生产就绪的 tRPC API：Apollo Federation 的 TypeScript 替代方案 Anthropic推出面向Claude Code的基于智能体的代码审查功能北京车展直击：斑马智能甩出车载Agent短剧，比亚迪率先落地，AI让智能座舱又热起来了 Snowflake 作为智能体运行时：从静态管道迈向自主数据系统｜技术实践 Snowflake 上的本体体系：基于 Cortex Code 能力实现从架构到部署｜技术实践 Cloudflare 公布 MCP 架构方案，应对企业面临的安全与治理风险复杂的项目管理怎么做到「AI 友好」？飞书项目用「开放」给出答案 Snowflake Cortex Code 的规范驱动开发：将 SDLC 方法论引入 AI 辅助工作流｜技术实践 Copilot 不让注册了：从“随便用”到“全面限”，agent 把原有订价模型顶穿了当互联网用AI卷效率时，这家公司先问了一连串“能不能” Meta 开始记录员工每一次点击：AI 要接管工作，先监控会工作的人 Meta“Token榜”逼疯打工人，一夜烧掉公司几万刀！AI时代Token焦虑越来越离谱智源FlagOS完成DeepSeek-V4-Flash在八款芯片Day0适配，实现三重技术突破 DeepSeek V4 重磅开源！首次打通华为Ascend，也没丢掉英伟达，百万上下文夺回国产模型话语权李志飞的“新实验”：当超级个体撞上真实组织 GPT-5.5 登顶时刻，Anthropic 亲口承认 Claude 变笨了！网友群嘲：太敷衍那些没空写的小需求，龙虾真能做吗？_AI&大模型_InfoQ 中文站_InfoQ精选视频从 Pandas 到生产：使用任意 IDE 进行可扩展的 ML 数据管道与分布式处理｜ BUILD 2025_AI&大模型_王玮_InfoQ精选视频 pnpm 11 候选版本发布，带来 ESM 分发、供应链默认设置以及新的存储格式银行业PDF表格提取方案重构：基于Java的分层方案 GPT-5.5 赢了 Opus 4.7 和 Mythos？奥特曼晒黄仁勋内部信：英伟达全员用上 Codex！ Cloudflare 推出 Think：一款面向 AI 代理的持久化运行时 1850亿美元天价支出、75%代码由AI生成！谷歌正式宣告：全面转向智能体工作流 xAI落后太多，马斯克“开大”重金求购Cursor，100亿美金“分手费”都敢签！ Pulumi 新增对 Bun 运行时的全面支持姚顺雨腾讯模型首秀！不卷参数只做 “听话打工人”，Hy3 preview登场 | 附实测老板让你“忽悠”投资人，你敢发给龙虾吗？_AI&大模型_InfoQ 中文站_InfoQ精选视频 Gemini CLI 引入子代理机制，实现任务委派与并行代理工作流清华系团队星工聚将完成数千万天使轮融资，轮式机器人拿下头部制造企业亿级大单 Pretext.js 绕过 DOM 布局重排，实现 120 FPS 的高级交互体验靠“AI 云”爆红的 Vercel，栽在一个第三方AI工具手里！IPO前夕遭黑，200万美元赎金谈崩？高能研讨会｜端侧 AI 正在重写实时感知效率上限_AI&大模型_王玮_InfoQ精选视频 2050大会看这篇就够了｜报名、交通食宿指引大全 Java 近期资讯：OpenJDK JEP、Jakarta EE 12、Spring Framework、Micrometer、Camel、JBang 金融智能的架构编排：基于 Snowflake Cortex Agents 实现结构化与非结构化数据统一分析｜技术实践在AK大神爆火的任务里，摸清国产AI真实水平百灵Ling-2.6-flash 正式发布：高 Token 效率，以 1/10 消耗实现 SOTA 级 Agent 能力当 PM 懂AI，当技术懂产品：AI 时代产品力的双向进化｜PM x AI产品力领航者大会即将开幕为 AI 智能体设计记忆机制：揭秘 LinkedIn 的认知记忆智能体获奖名单公布｜2026主题征文第一期｜分享你最有价值的龙虾场景与核心 Skill_热门活动_InfoQ写作社区官方_InfoQ写作社区

作者：Steef-Jan Wiggers明知山 · 2026-06-13 · via InfoQ - 促进软件开发领域知识与创新的传播

微软在 Build 2026 开发者大会上宣布，将全面增强 Azure API Management 的 AI 网关能力。本次主要新增能力如下：一是推出统一模型 API（Unified Model API），客户端仅需使用一种 API 格式，Azure API Management 即可自动将请求适配为各类后端服务商对应的格式；二是 AI 网关现已支持接入 Anthropic 和 Google Vertex AI 旗下模型；三是内容安全策略升级，防护范围拓展至 MCP 工具调用以及智能体间（A2A）通信，与原有大语言模型流量一并纳入保护。

APIM 团队撰文指出：

相较于为智能体单独搭建专属治理平台，Azure API Management 可帮助企业将成熟的 API 治理规则直接沿用至新兴的智能体生态体系中。

统一模型 API 现已进入公开预览阶段，解决了企业团队日益突出的运营痛点——随着团队越来越多地混合使用 OpenAI、Anthropic、Google 等提供商的模型（基于性能、成本、延迟或区域需求方面的考虑），每个提供商暴露的 API 格式各不相同。统一模型 API 让客户端可以统一采用一种格式（目前为 OpenAI Chat Completions），APIM 会透明地将请求转换为后端提供商的原生格式，无论是 Anthropic Messages API 还是其他模式。团队可以更换后端提供商、添加新模型或在不同提供商之间路由流量，都无需修改客户端代码。

这不仅仅是一个简单的功能适配层。将模型访问统一接入单一 API 接口后，无论由哪家服务商执行推理，所有治理策略、限流规则、内容安全检测与令牌用量统计都可统一生效。已经使用 APIM 进行传统 API 治理的组织可以将相同的模式延伸至 AI 工作负载，无需额外引入独立的治理体系。

内容安全能力向 MCP 与 A2A 场景延伸是本次架构层的 llm-content-safety 策略原本用于对照 Azure Content Safety 扫描 LLM 请求和响应内容，现在已同步覆盖 MCP 工具调用参数、MCP 响应文本以及 A2A 智能体交互载荷。同时，该策略包含两层独立安全防护：分类内容过滤，针对仇恨、自残、色情、暴力四类内容进行管控，支持设置风险等级阈值，范围为 0（最严格）至 7（最宽松）；独立的 shield-prompt 属性，用于识别对抗性提示词注入攻击。典型配置示例如下：

<llm-content-safety backend-id="content-safety-backend" shield-prompt="true" enforce-on-completions="true">    <categories output-type="EightSeverityLevels">        <category name="Hate" threshold="4" />        <category name="Violence" threshold="4" />    </categories></llm-content-safety>

复制代码

团队需要注意的一个实现细节，即该策略在流式响应中的行为有所不同。在非流式模式下，一旦检测到违规内容，系统会直接返回 403 状态码。在流式模式下，策略会在滑动窗口中缓冲事件，并直接停止向客户端转发后续事件，且不会返回错误信息。因此，使用流式补全能力的智能体需适配这种内容中断的情况，不能依赖错误码做判断。两个新增的属性 window-size 和 window-overlap-size 可用于调整超长内容的拆分规则，适配 Azure 内容安全服务 10000 字符的评估上限。

词元统计指标已进行了升级，适配多提供商的使用场景。APIM 现在会将推理词元、缓存词元和音频词元记录到 Application Insights，支持 OpenAI Chat Completions、OpenAI Responses 和 Anthropic Messages API 等格式，可监控 Microsoft Foundry、OpenAI、Amazon Bedrock、Google Vertex AI 等多加服务商。对于需要构建成本仪表盘和预算警报的 FinOps 团队来说，扩展后的指标能够反映当前模型的实际行为——推理和缓存消耗了大量早期指标未能捕捉的词元预算。

在资源发现方面，Azure API Center 数据平面 MCP 服务器已正式发布（GA）。它可作为企业统一的资源发现端点：智能体和开发者工具可以通过单个 MCP 连接访问已注册的 MCP 服务器、工具、API、智能体及各类 AI 资产。当团队在 API Center 注册新的 MCP 服务器时，所有已连接的智能体都能自动发现它，无需逐个客户端重新配置。

APIM 现在还支持将已有的 REST API 暴露为 MCP 服务器，这意味着早于智能体时代的企业 API 无需重构即可被智能体调用。结合本次在 Build 大会上正式发布的 Logic Apps MCP 服务器，微软正在构建两条并行路径，帮助企业对接智能体：一条通过 API 网关层（APIM），另一条通过集成平台层（Logic Apps）。

对于正在评估 AI 网关方案的团队来说，行业竞争态势具有重要参考意义。亚马逊云科技的 Bedrock Guardrails 用于内容过滤和模型访问控制，但暂无产品可对标 APIM 的多厂商统一模型 API，以及针对 MCP、A2A 的全维度内容安全能力。谷歌的 Apigee 已添加一些 AI 网关功能，但尚未达到 APIM 现在覆盖的协议广度。Cloudflare 的 AI Gateway 侧重成本管控与缓存能力，而非多协议治理。APIM 的核心思路是：API 网关（而非全新品类产品）才是承载 AI 工作负载的天然控制平面。

AI 网关能力在所有 APIM 层级中均可用。统一模型 API 处于公开预览阶段。针对 MCP、A2A 的内容安全功能、升级后的词元指标以及 API Center MCP 服务器已正式发布（GA）。AI Gateway 实验室提供 30 多个实操 Jupyter Notebook，包含分步说明和可部署的 Bicep 模板。

查看英文原文：https://www.infoq.com/news/2026/06/azure-apim-ai-gateway-build/

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

推荐订阅源

InfoQ - 促进软件开发领域知识与创新的传播