惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Google DeepMind News
Google DeepMind News
大猫的无限游戏
大猫的无限游戏
S
Securelist
The Hacker News
The Hacker News
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
F
Fortinet All Blogs
Jina AI
Jina AI
K
Kaspersky official blog
T
Threat Research - Cisco Blogs
Stack Overflow Blog
Stack Overflow Blog
Webroot Blog
Webroot Blog
有赞技术团队
有赞技术团队
T
The Blog of Author Tim Ferriss
量子位
S
Schneier on Security
Latest news
Latest news
D
Darknet – Hacking Tools, Hacker News & Cyber Security
O
OpenAI News
云风的 BLOG
云风的 BLOG
M
MIT News - Artificial intelligence
博客园 - 叶小钗
L
LINUX DO - 最新话题
V
Visual Studio Blog
U
Unit 42
Hacker News - Newest:
Hacker News - Newest: "LLM"
S
Security Affairs
AWS News Blog
AWS News Blog
S
Secure Thoughts
腾讯CDC
Cloudbric
Cloudbric
H
Help Net Security
The GitHub Blog
The GitHub Blog
阮一峰的网络日志
阮一峰的网络日志
C
Cyber Attacks, Cyber Crime and Cyber Security
WordPress大学
WordPress大学
The Last Watchdog
The Last Watchdog
www.infosecurity-magazine.com
www.infosecurity-magazine.com
博客园 - 【当耐特】
Exploit-DB.com RSS Feed
Exploit-DB.com RSS Feed
D
DataBreaches.Net
A
About on SuperTechFans
G
GRAHAM CLULEY
Forbes - Security
Forbes - Security
Hugging Face - Blog
Hugging Face - Blog
Martin Fowler
Martin Fowler
Vercel News
Vercel News
Cisco Talos Blog
Cisco Talos Blog
NISL@THU
NISL@THU
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
Know Your Adversary
Know Your Adversary

InfoQ - 促进软件开发领域知识与创新的传播

Meta 收购 Manus 这事儿泡汤了 5.5万 Star 开源项目 Ghostty 被迫出走,GitHub 正在终结一代技术人的乌托邦 Slack 长时运行多智能体系统的上下文管理方案 从 T+1 到分钟级:金城银行基于 Apache Doris 构建高可靠、强一致的实时数据平台 谷歌云推出 Agents CLI,简化 AI 智能体开发全流程 Claude官方击穿高薪、高学历的安全防线!Anthropic点名10大高危职业,但有群人暂时稳了 亚马逊云科技终止 WorkMail 服务,并将 App Runner 转入维护模式 OPPO小布记忆:全模态碎片化内容的理解与智能整理实践|AICon上海 模力工场038周AI应用周榜:工具在消失,工作流在出现 Akamai CEO Tom Leighton:Agent 时代来临,云基础设施正从“中心化”转向“分布式边缘” 日均数百亿入库背后:从“人肉调度”到K8s弹性架构,度小满金融基于OceanBase重构入库架构实践 百度文库网盘发布GenFlow 4.0:月活用户超1亿,要把网盘变成全端AI工作台 Altman 投的 Agent 终端 Warp 开源了!斩获3.5万star 哪些客户需要拒, 敢让龙虾决定吗?_AI&大模型_InfoQ 中文站_InfoQ精选视频 从开发到生产:为什么越来越多的机器学习团队纷纷迁移到 Snowflake | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 探索多智能体工作流:LangGraph Snowflake Cortex AI | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 腾讯云分布式缓存数据库:AI Agent - 从提示词工程到 Harness 工程 | 腾讯云数据库 DBTalk_腾讯_凌敏_InfoQ精选视频 基于 Streamlit 为 CSV 数据构建分析智能体 | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 AI 智能体:告别文档缺漏 | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 构建 AI 驱动的数据管道:深度探讨 Snowflake Openflow 与非结构化数据 | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 云端太贵、本地不够聪明,英特尔押注“端云混合AI”:智能体PC会替人完成工作 不到10%的存储投入,可能拖垮90%的GPU投资!IBM把AI Agent塞进存储系统,算清企业最容易忽略的一笔账 Snowpark 上手实战 | BUILD 2025_大数据_王玮_InfoQ精选视频 ClickHouse + Langfuse,构建 Agent 可观测基石 腾讯云分布式缓存数据库:Cluster Proxy 共享连接架构深度解析 | 腾讯云数据库 DBTalk_腾讯_凌敏_InfoQ精选视频 AI 写代码太烧钱了:Copilot、Claude 一起涨价,不如把程序员请回来? 英特尔发布至强600系列工作站处理器与锐炫Pro B70 GPU,全新AI工作站来了 腾讯云分布式缓存数据库:从 Redis 到 Valkey - 开源社区如何快速创新 | 腾讯云数据库 DBTalk_腾讯_凌敏_InfoQ精选视频 印奇这次要“从0重做”智驾模型!首谈阶跃和千里双公司布局:中国AI商业闭环要靠车跑出来 从Cursor返聘归来,90后华裔女高管带Claude开启日更模式:token成本比工程师工资低多了! 从 Coding 到 Agent:QCon 北京 2026 全景复盘,优秀出品人 & 明星讲师名单揭晓 全链路支撑大模型国产化“Day 0适配”,商汤大装置构建全栈能力底座 凌晨,OpenAI 与亚马逊云科技史上最大联合发布来了 HashiCorp Vault 2.0 发布:引入新身份联邦机制,迈入 IBM 生命周期体系 Yelp 实现超 1,000 个 Cassandra 节点零停机升级 写了 17 年开源代码,我为什么认为 Coding Agents 堆功能是在瞎折腾? 基于 Apache Camel 编排智能体与多模态 AI 管道 面向智能体与人类用户的AI记忆系统:架构设计与核心场景实践|AICon上海 Anthropic 推出 Managed Agents,简化 AI 代理部署流程 阿里HappyHorse开启灰测,720P视频生成低至0.44元/秒 讯飞联合清华团队押注量子AI:不看营收、不设KPI,一群“无人区”科学家,抢夺下代AI算力入口 小米万亿模型全面开源:MIT 协议、1M 上下文,但还是打不过 DeepSeek Cortex Code 入门指南:面向数据工程师的实践路径 | 技术实践 openJiuwen社区首发Team Skills,定义Coordination Engineering新范式 用 Snowflake Cortex Agents 释放结构化数据的最大价值 | 技术实践 Grafana 利用 Kafka 对 Loki 进行了架构重构,并发布了一款命令行工具,旨在将可观测性引入编码代理 ClickHouse重构全文索引:对象存储上跑出高性能 Full-Text Search 可观测性和遥测技术如何提升软件工程实践 Dropbox 与 GitHub 合作,将单体库大小从 87GB 缩减至 20GB Agent 的下一站:基于长期记忆系统 EverOS 的自我演进|AICon上海 同一赛道,四种收费:Agent 控制层(Harness)开始分裂 Cloudflare Sandboxes 正式发布,为 AI 代理提供持久化隔离环境 Agent 的“记忆断片”困局,该怎么破?_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选视频 数据分析师如何快速建立在 AI 时代最值钱的能力:一份可落地的行动路线图 摩尔线程最新财报:研发占比超86%,万卡级大规模智算集群落地 当云区域失效:地缘动荡环境下的高可用重构 Slack 重构通知系统,设置参与度提升 5 倍 智能体工程的隐性技术债务 “我把所有模型都换成了DeepSeek V4”:月账单将降 90%,效果还更好 阿里云智能集团高级技术专家刘少伟已确认出席AICon上海站,并分享如何构建企业 Agent 的自动化行动架构 构建生产就绪的 tRPC API:Apollo Federation 的 TypeScript 替代方案 Anthropic推出面向Claude Code的基于智能体的代码审查功能 北京车展直击:斑马智能甩出车载Agent短剧,比亚迪率先落地,AI让智能座舱又热起来了 Snowflake 作为智能体运行时:从静态管道迈向自主数据系统 | 技术实践 Snowflake 上的本体体系:基于 Cortex Code 能力实现从架构到部署 | 技术实践 Cloudflare 公布 MCP 架构方案,应对企业面临的安全与治理风险 复杂的项目管理怎么做到「AI 友好」?飞书项目用「开放」给出答案 Snowflake Cortex Code 的规范驱动开发:将 SDLC 方法论引入 AI 辅助工作流 | 技术实践 Copilot 不让注册了:从“随便用”到“全面限”,agent 把原有订价模型顶穿了 当互联网用AI卷效率时,这家公司先问了一连串“能不能” Meta 开始记录员工每一次点击:AI 要接管工作,先监控会工作的人 Meta“Token榜”逼疯打工人,一夜烧掉公司几万刀!AI时代Token焦虑越来越离谱 智源FlagOS完成DeepSeek-V4-Flash在八款芯片Day0适配,实现三重技术突破 DeepSeek V4 重磅开源!首次打通华为Ascend,也没丢掉英伟达,百万上下文夺回国产模型话语权 李志飞的“新实验”:当超级个体撞上真实组织 GPT-5.5 登顶时刻,Anthropic 亲口承认 Claude 变笨了!网友群嘲:太敷衍 那些没空写的小需求,龙虾真能做吗?_AI&大模型_InfoQ 中文站_InfoQ精选视频 从 Pandas 到生产:使用任意 IDE 进行可扩展的 ML 数据管道与分布式处理 | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 pnpm 11 候选版本发布,带来 ESM 分发、供应链默认设置以及新的存储格式 银行业PDF表格提取方案重构:基于Java的分层方案 GPT-5.5 赢了 Opus 4.7 和 Mythos?奥特曼晒黄仁勋内部信:英伟达全员用上 Codex! Cloudflare 推出 Think:一款面向 AI 代理的持久化运行时 1850亿美元天价支出、75%代码由AI生成!谷歌正式宣告:全面转向智能体工作流 xAI落后太多,马斯克“开大”重金求购Cursor,100亿美金“分手费”都敢签! Pulumi 新增对 Bun 运行时的全面支持 姚顺雨腾讯模型首秀!不卷参数只做 “听话打工人”,Hy3 preview登场 | 附实测 老板让你“忽悠”投资人,你敢发给龙虾吗?_AI&大模型_InfoQ 中文站_InfoQ精选视频 Gemini CLI 引入子代理机制,实现任务委派与并行代理工作流 清华系团队星工聚将完成数千万天使轮融资,轮式机器人拿下头部制造企业亿级大单 Pretext.js 绕过 DOM 布局重排,实现 120 FPS 的高级交互体验 靠“AI 云”爆红的 Vercel,栽在一个第三方AI工具手里!IPO前夕遭黑,200万美元赎金谈崩? 高能研讨会|端侧 AI 正在重写实时感知效率上限_AI&大模型_王玮_InfoQ精选视频 2050大会看这篇就够了|报名、交通食宿指引大全 Java 近期资讯:OpenJDK JEP、Jakarta EE 12、Spring Framework、Micrometer、Camel、JBang 金融智能的架构编排:基于 Snowflake Cortex Agents 实现结构化与非结构化数据统一分析 | 技术实践 在AK大神爆火的任务里,摸清国产AI真实水平 百灵Ling-2.6-flash 正式发布:高 Token 效率,以 1/10 消耗实现 SOTA 级 Agent 能力 当 PM 懂AI,当技术懂产品:AI 时代产品力的双向进化|PM x AI产品力领航者大会即将开幕 为 AI 智能体设计记忆机制:揭秘 LinkedIn 的认知记忆智能体 获奖名单公布|2026主题征文第一期|分享你最有价值的龙虾场景与核心 Skill_热门活动_InfoQ写作社区官方_InfoQ写作社区
Legare Kerrison 与 Cedric Clyburn 谈 LLM 性能与评估
作者:Srini Pen · 2026-05-10 · via InfoQ - 促进软件开发领域知识与创新的传播

有效衡量基于大语言模型(LLM)的应用性能,已经成为企业采用 AI 技术的关键因素。来自红帽团队的 Legare Kerrison 与 Cedric Clyburn 近日在 Arc of AI 2026 大会分享了评估与优化 LLM 推理的实用方法。他们讨论了 RAG(检索增强生成)与 Agentic AI 等 AI 应用中不同工作负载的资源需求与成本影响,同时强调了 Requests Per Second(RPS)、Time to First Token(TTFT)以及 Inter-Token Latency(ITL)等指标在应用评估中的重要性。

演讲一开始,两位讲者回顾了近几年 AI 领域的发展节奏:2023 年属于 LLM 和 Hugging Face 等模型,2024 年是 RAG 的一年,2025 年则聚焦模型微调与 AI Agent,而他们预测 2026 年将成为“LLM 评估之年”。在 AI 部署以及 LLM 模型评估与性能分析方面,他们指出,各类排行榜虽然有参考价值,但通常过于通用。一些网站会使用困难提示词、编程、数学和创意写作等维度评测模型,但这些基准并不能反映企业自身独特的业务问题与数据。因此,在使用这些排行榜时,必须认识到其局限性。软件开发团队需要理解整个 AI 技术生态,才能为具体业务场景选择合适的模型与供应商。

两位讲者还重点提到了他们在真实 LLM 项目落地过程中遇到的常见痛点:当团队尝试交付可用于生产环境的模型时,必须在模型质量(准确率)、响应速度(延迟)与整体成本之间处理一个“权衡三角”。优化其中任意两个维度,都会影响第三个维度。例如,如果同时追求高准确率和低延迟,那么部署成本通常会显著上升;若重点关注低成本和高准确率,则往往意味着更高的延迟;而过度强调低成本和低延迟,则会牺牲模型准确率。因此,在为工作负载选择合适的模型、性能目标与硬件基础设施时,清晰的测量与评估机制至关重要。

他们认为,团队需要从单纯关注“选择哪个模型”,转向关注应用本身的需求与优先级,才能真正为用户提供合适的解决方案。通过定义明确关键性能与质量指标的服务级目标(SLO),不仅能够确保应用对终端用户保持快速、可靠且实用,还能帮助团队在不同模型与硬件之间进行结构化对比,从而优化成本。

其中,Requests Per Second(RPS)用于衡量系统每秒能够处理多少推理请求,可用于评估整体吞吐量以及服务栈在负载下的扩展能力。Time to First Token(TTFT)指从发送请求到接收到第一个生成 token 的时间,用于衡量用户感知到的响应延迟。而 Inter-Token Latency(ITL)则表示首个 token 之后,相邻 token 之间的生成间隔,它反映了流式输出在用户看来是否足够流畅,同时也体现了解码器的效率。

他们展示了不同工作负载下的 SLO 示例,以及对应的使用场景和基准指标。例如,一个电商聊天机器人通常需要快速、具备对话感的响应。在这种场景中,TTFT 通常要求 ≤200ms,ITL 要求在 99% 请求(P99)中 ≤50ms。而基于 RAG 的应用则比单纯的速度更强调准确性与完整性。RAG 场景通常具有更多输入 token、较少输出 token,因此其 TTFT、ITL 与请求延迟指标分别要求在 99% 请求中达到 ≤300ms、≤100ms(在流式输出情况下)以及 ≤3000ms。

在明确应用优先级之后,团队还需要进一步考虑硬件需求。LLM 推理阶段通常包含两个阶段:Prefill(计算密集型)与 Decode(内存密集型)。结构化生成、推测解码、前缀缓存以及会话缓存等技术,都有助于提升 LLM 服务效率。相比依赖后续 token 的 Decode 阶段,使用首个 token 的 Prefill 阶段更容易扩展负载。两位讲者还提到,在适合的场景下,本地运行 LLM 可以避免云端开销,从而在某些使用场景中获得更高效率。

他们将“模型评估”定义为:基于多项标准,评估模型在特定用途下整体性能与适用性的过程,即一个特定模型在某类工作负载和特定硬件上的实际表现。而“模型基准测试”则是基于预定义数据集、任务以及其他模型,对模型性能进行标准化对比。

他们还介绍了团队通常如何在不同工作流模式下衡量 LLM 性能。例如,在标准请求流中,每个新请求都会生成 token,因此端到端请求延迟是重要指标。而在流式请求场景中,LLM 请求往往具有异构性,因此 TTFT 与 ITL 等指标需要被正式跟踪与监控。

LLM 性能指标会受到多种因素影响,包括模型架构与规模、量化(通过降低权重精度压缩模型)、推理服务引擎(如 OllamavLLM、TGI、Triton)、硬件条件(例如 GPU 显存)以及批处理与并发策略。

由于模型推理性能评估过程耗时且碎片化,因此 LLM 部署的测量工作并不容易。Kerrison 与 Clyburn 展示了一些团队在规划 LLM 工作负载时需要考虑的问题,例如:“在英伟达 H200 上,我应该使用 Llama 3.1 8B 还是 Llama 3.1 70B Instruct 来构建客服聊天机器人?”或者“为了在最大负载下维持服务运行,我需要多少台服务器?”

他们还介绍了使用开源工具包进行基准测试的方法,例如用于面向 SLO 的 LLM 部署基准测试工具 GuideLLM。GuideLLM 是 vLLM 项目的一部分,它能够模拟真实流量,并测量吞吐量和延迟等指标。其流程包括:选择与定制模型、基于真实数据或合成数据选择数据集、配置工作负载以及执行基准测试。如果模型能够达到预期 SLO 目标,就可以在 vLLM 引擎上部署到生产环境。

Clyburn 展示了使用模拟工作负载进行的 GuideLLM 测试结果,包括同步模式(一次运行单个请求流)和并发模式(并行运行固定数量的同步请求流),并使用了 Hugging Face 的 ShareGPT 数据集、文件型数据集以及内存数据集。他还分享了 Chat、RAG、摘要生成与代码生成等不同工作负载在 P99(99 分位)与 P90(90 分位)延迟指标下的基准结果。

除了 LLM 推理性能之外,模型准确率评估同样重要。LLM 准确率评估场景通常包括:模型准确率、Pipeline 准确率(针对 RAG 与 AI Agent)以及应用准确率。一些常见的开源评估工具包括:

  • RAG 场景评估:Ragas、LlamaIndex EvalsHaystack Eval framework

  • 应用/工作流/Agent 评估:Ragas(扩展版)、LangfuseTruLens

  • 人工 + LLM-as-a-judge 评估:人工标注、LLM 评审

  • 领域专项准确率评估:PubMedQA(生物医学)、FiQA(金融)、CaseHOLD(法律)

最后,两位讲者强调,应用团队应重点关注 LLM 优化技术,例如量化——相比一些小众优化技巧,压缩模型往往更加有效。在一个案例中,使用 GPTQModifier 进行量化后,模型体积缩小了 45%。另一个重要技术是 KV Cache,它能够减少重复计算并加速解码,但代价是需要更多内存。在 AI 学习资源方面,他们推荐了 Hugging Face 网站,其中提供经过红帽 AI 验证的语言模型;同时也推荐 deeplearning.ai 的 AI 培训课程,用于系统学习 AI 相关知识。

原文链接:

https://www.infoq.com/news/2026/04/kerrison-clyburn-llm-performance/