惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

W
WeLiveSecurity
The GitHub Blog
The GitHub Blog
Engineering at Meta
Engineering at Meta
Microsoft Azure Blog
Microsoft Azure Blog
The Register - Security
The Register - Security
Stack Overflow Blog
Stack Overflow Blog
博客园 - 三生石上(FineUI控件)
T
Threat Research - Cisco Blogs
S
SegmentFault 最新的问题
V2EX - 技术
V2EX - 技术
Hacker News: Ask HN
Hacker News: Ask HN
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
P
Proofpoint News Feed
J
Java Code Geeks
Microsoft Security Blog
Microsoft Security Blog
M
MIT News - Artificial intelligence
AI
AI
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
P
Proofpoint News Feed
Hacker News - Newest:
Hacker News - Newest: "LLM"
B
Blog
N
News and Events Feed by Topic
N
News | PayPal Newsroom
Google DeepMind News
Google DeepMind News
酷 壳 – CoolShell
酷 壳 – CoolShell
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
WordPress大学
WordPress大学
C
Cybersecurity and Infrastructure Security Agency CISA
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
博客园 - 【当耐特】
U
Unit 42
腾讯CDC
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
The Cloudflare Blog
H
Help Net Security
Recent Announcements
Recent Announcements
P
Privacy & Cybersecurity Law Blog
IT之家
IT之家
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
Security Archives - TechRepublic
Security Archives - TechRepublic
L
LINUX DO - 热门话题
Martin Fowler
Martin Fowler
MongoDB | Blog
MongoDB | Blog
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
H
Heimdal Security Blog
博客园 - 聂微东
S
Securelist
大猫的无限游戏
大猫的无限游戏
Cloudbric
Cloudbric
Cisco Talos Blog
Cisco Talos Blog

JoyoBlog

Agent 和 skills 的解释和区别 Obsidian 和 dify 做知识库的对比,哪个更适合落地到企业软件测试流程中 认识和使用 Hermes Agent 开源自主学习 AI 智能体 针对大模型的安全性测试 全力推进和落地 AI QA 工作流 RAG 设计核心知识点总结(知识库建设注意点、 Memory 模块设计、向量数据库对比) 个人养生羽毛球 - 打球记录 | 卓越笔记 测试岗年终总结方向参考 | 卓越笔记 测试任务提测标准和流程 | 卓越笔记 抽奖日志表统计中奖的次数和奖品出现的概率 | 卓越笔记 AI 系统运转的 7 个关键层级 | 卓越笔记 IPv4和IPv6在位数和长度方面的主要区别 | 卓越笔记 RAG、知识库和上下文的区别和联系 | 卓越笔记 中级系统集成项目管理工程师考试辅导 skill | 卓越笔记
针对大模型的性能测试
2026-04-24 · via JoyoBlog
对大型语言模型进行性能测试,通常需要从  模型能力  和  推理效率  这两个核心维度来衡量。一个全面的测试体系,需要结合衡量“智能”的学术基准与评估“速度”的系统指标。 🧠 一、模型能力评估:核心是回答“模型有多聪明?” 这部分通过 基准测试(Benchmark) 来量化模型在特定任务上的表现,这些指标可以概括为“能力指标”。 语言理解与推理 (Knowledge & Reasoning) :评估模型的世界知识储备和逻辑推理能力。 常见基准 :MMLU、C-Eval、HellaSwag、ARC、WinoGrande、SuperGLUE。 核心指标 :准确率(Accuracy)。 数学与编程 (Math & Coding) :评估模型的符号推理和算法实现能力。 常见基准 :GSM8K、MATH、HumanEval、MBPP、APPS。 核心指标 :准确率、Pass@k(代码通过率)。 知识问答与对话 (QA & Dialogue) :评估模型在信息检索和上下文理解方面的表现。 常见基准 :SQuAD、DROP、MT-Bench。 核心指标 :F1分数、精确匹配(EM)、ROUGE。 高级与专项能力 (Advanced & Specialized) : 长上下文 (Long Context) :  Needle in a Haystack ,评估模型在海量信息中的信息提取能力。 智能体 (Agentic) : KAMI, AgentBench, ToolBench,评估模型作为“智能体”的计划和工具调用能力。 检索增强生成 (RAG) : RGB, RAGAS,评估模型结合外部知识回答问题的能力。 多模态 (Multimodal) : MME, MMBench,评估模型理解和处理图像、视频等不同类型数据的能力。 注意 :模型在基准测试中的高准确率,不等于在真实业务场景中的高价值。因此,结合业务场景的定制化评估非常重要,例如统计 任务完成率 和 成本效益比 。 ⚡️ 二、推理效率评估:核心是回答“模型跑得有多快/多省?” 这部分聚焦于服务端的性能,指标通常分为 延迟(Latency) 、 吞吐量(Throughput) 和 资源利用率(Resource Utilization) 。 关键延迟指标 这些指标主要衡量响应速度,直接决定了用户体验。 首 Token 时间 (TTFT - Time to First Token) :从发送请求到收到第一个输出 Token 的时间。对交互式应用(如聊天机器人)至关重要,过长的 TTFT 会严重影响实时感。 Token 间延迟 (ITL / TPOT - Time Per Output Token) :生成后续每个 Token 所需的平均时间。主要影响流式输出的流畅度,决定了用户感知的“输出速度”。 端到端延迟 (E2E Latency) :从发送请求到接收完整响应的时间。该指标综合反映了整个处理流程的性能,是评估用户体验的综合指标。 吞吐量与资源利用率指标 这些指标衡量服务端的处理能力和效率。 每秒 Token 数 (TPS - Tokens Per Second) :系统每秒生成的总 Token 数。衡量原始吞吐能力,TPS 越高,意味着硬件资源被更充分地利用。 每秒请求数 (RPS - Requests Per Second) :系统每秒处理的请求数。更贴合业务层的吞吐量概念,但在处理不同长度的请求时波动较大。 硬件利用率 (Hardware Utilization) : GPU 利用率 、 显存占用 、 CPU 使用率 等。识别硬件瓶颈,辅助容量规划,避免资源闲置或过载。 能耗效率 (Energy Efficiency) : 每 Token 能耗 ,单位通常是 Joules/Token。在边缘计算和绿色计算场景下尤为重要。 影响效率指标的关键因素 模型规模 :参数量越大,推理所需算力通常越高。 序列长度 :输入和输出文本越长,计算量和显存占用越高。 批处理(Batching) :将多个请求合并处理可显著提升吞吐量,但会增加延迟。 硬件配置 :GPU型号、显存大小、CPU、内存、网络等均是决定性因素。 软件优化 :推理框架(如vLLM、TensorRT-LLM)、量化技术(如INT8、FP8)都会直接影响性能。 🛠️ 三、测试工具集:从基准测试到压力测试 根据自己的测试目标,选择合适的工具可以事半功倍。 1. 综合评估框架 一站式解决方案,可同时评估模型的能力和效率,功能全面。 EvalScope :由ModelScope社区开发,支持多种模型(LLM、VLM),内置众多基准测试,并具备强大的性能压测能力(如TTFT、TPOT)。 LM-Evaluation-Harness :由EleutherAI开发,事实标准之一,支持超过60个学术基准测试,被Hugging Face Open LLM Leaderboard采用。 MLPerf :MLCommons的行业标准AI性能基准测试套件,最新版本MLPerf Inference v6.0增加了大语言模型基准,MLPerf Endpoints专用于评估API端点的GenAI性能。 Spark-LLM-Eval :基于Apache Spark构建的分布式评估框架,专为超大规模(百万级样本)的模型评估设计,并强调统计严谨性(如置信区间)。 One-Eval :创新的智能体式评估系统,可将自然语言的评估请求自动转化为可执行的评估工作流,大幅降低手动配置成本。 RAGPerf :专门为检索增强生成(RAG)系统设计的端到端基准测试框架。 LEAF (LLM Edge Assessment Framework) :专门评估边缘端LLM性能的框架,综合考量性能、语义准确性和硬件可持续性(如能耗)。 2. 专项能力评估工具 专注于特定任务或架构的测试。 DeepEval :类似Pytest的LLM单元测试框架,提供50+种指标用于评估RAG、智能体等应用。 RAGAS :用于RAG(检索增强生成)管道评估的框架。 Promptfoo :跨模型提示词测试工具,支持90+模型(GPT、Claude、Gemini等),并提供67种安全攻击插件用于红队测试。 Giskard :专注于LLM安全与鲁棒性的测试框架,可扫描幻觉、提示注入漏洞、有害内容等,并生成可复现的测试套件。 NVIDIA NeMo Evaluator :NVIDIA的评估工具,支持学术基准和LLM-as-a-Judge等评估方法。 ArchBench :专门用于评估生成式AI在软件架构任务中能力的基准平台。 3. 效率与压测专用工具 专注于性能压测和效率评估。 GenAI-Perf :NVIDIA开发的LLM推理性能基准测试工具,提供TTFT、ITL、TPS、RPS等关键指标。 LLM-Benchmark :开源的LLM并发性能测试工具,支持自动化压力测试,支持短文本和长文本场景。 Metron :提出“流畅性指数”(Fluidity-index)等创新指标,旨在更全面地评估实时交互体验。 vLLM Benchmarking Tools :vLLM推理引擎自带的基准测试工具。 K6 :通用的性能测试工具,可通过跟踪HTTP请求中的定时事件来测量TTFT。 💡 四、推荐测试流程建议 一个科学的测试流程通常包含以下几个步骤: 明确测试目标 :是评估模型能力、选型,还是进行容量规划或性能调优? 选择合适指标 :根据目标,从“能力”和“效率”两个维度中选取关键指标。 准备测试环境 :配置硬件、模型服务框架和监控系统。 执行测试 :依次进行单次请求的基准测试和模拟真实场景的压力测试。 分析结果与优化 : 模型能力 :分析在哪些任务上表现好/差,指导后续的微调或提示工程。 推理效率 :对比不同负载下的性能,找出瓶颈(如显存、带宽、调度),进行针对性优化(如调整批处理大小、启用量化)。 回归测试 :在CI/CD流程中建立自动化性能回归测试,当性能指标出现显著变化时触发告警