惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

T
Threat Research - Cisco Blogs
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
V
Vulnerabilities – Threatpost
GbyAI
GbyAI
P
Proofpoint News Feed
L
LINUX DO - 热门话题
P
Palo Alto Networks Blog
A
About on SuperTechFans
T
Tenable Blog
M
MIT News - Artificial intelligence
IT之家
IT之家
I
Intezer
D
DataBreaches.Net
爱范儿
爱范儿
T
Threatpost
C
CERT Recently Published Vulnerability Notes
云风的 BLOG
云风的 BLOG
博客园 - 三生石上(FineUI控件)
WordPress大学
WordPress大学
K
Kaspersky official blog
大猫的无限游戏
大猫的无限游戏
A
Arctic Wolf
Y
Y Combinator Blog
Cyberwarzone
Cyberwarzone
酷 壳 – CoolShell
酷 壳 – CoolShell
D
Darknet – Hacking Tools, Hacker News & Cyber Security
H
Help Net Security
Microsoft Security Blog
Microsoft Security Blog
Spread Privacy
Spread Privacy
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
AWS News Blog
AWS News Blog
博客园 - 聂微东
C
Check Point Blog
S
Securelist
有赞技术团队
有赞技术团队
雷峰网
雷峰网
aimingoo的专栏
aimingoo的专栏
Last Week in AI
Last Week in AI
Stack Overflow Blog
Stack Overflow Blog
MongoDB | Blog
MongoDB | Blog
D
Docker
G
GRAHAM CLULEY
T
The Exploit Database - CXSecurity.com
C
Cybersecurity and Infrastructure Security Agency CISA
T
Tailwind CSS Blog
L
Lohrmann on Cybersecurity
G
Google Developers Blog
C
Cyber Attacks, Cyber Crime and Cyber Security
L
LangChain Blog

博客园 - ReturnHome

shell脚本 sql窗口函数 sql常用 大数据面试问题 Python常用库和方法 金融行业测试总结 电商高并发高库存系统测试总结 大模型性能测试 100 条大模型人工测试用例 记忆管理 多智能体协作 Elasticsearch(ES) 知识检索 jmeter计算模型token AI提示词链 详解https协议和http协议的区别和底层工作原理 请求区别 app测试注意点 TCP的三次握手和四次挥手 常用的中间件
AI测试
ReturnHome · 2026-03-19 · via 博客园 - ReturnHome

4 个维度搭建 AI 测试体系:

  1. 功能 / 效果测试
    • 意图识别准确率、回答相关性、多轮对话能力
    • 构造标准问答集、bad case 集、边界场景集
  2. 鲁棒性测试(抗干扰)
    • 错别字、口语化、歧义、省略、敏感词变种
    • 输入乱码、超长文本、恶意诱导
  3. 安全性 & 合规性
    • prompt 注入、越权、隐私泄露
    • 价值观、敏感内容、违规生成
  4. 性能 & 稳定性
    • 响应时间 RT、并发、失败率、资源占用
    • 模型版本迭代后的回归测试

Agent 怎么测?

1. 功能测试(任务执行能力)

测它能不能完成用户目标。

  • 明确意图任务:订机票、查天气、写周报、查订单
  • 多轮对话任务:信息不全时追问、上下文记住
  • 复杂任务拆解:一步一步是否合理
  • 工具调用是否正确:参数对不对、时机对不对

评判:能不能达成任务,而不是回答漂不漂亮。

2. 决策逻辑测试(最核心、最体现深度)

Agent 核心是 Thinking 思考过程。

你要测:

  • 该不该调用工具?
  • 该调用哪个工具?
  • 参数是否正确?
  • 是否出现幻觉调用?
  • 是否出现死循环:查天气→查天气→查天气…
  • 是否出现漏步骤、跳步骤、多步骤

3. 工具调用测试(Tool Call)

  • 必传参数是否能正确获取或追问
  • 参数格式是否正确(日期、数字、ID)
  • 工具调用失败是否能重试、降级、告知用户
  • 多工具并行 / 串行是否混乱
  • 权限控制:是否越权调用

4. 记忆与上下文测试(Memory)

  • 多轮对话是否记住历史信息
  • 上下文过长是否丢失关键信息
  • 重置会话是否清理干净
  • 多用户会话是否隔离(不串记忆)

5. 鲁棒性测试(抗干扰)

  • 错别字、口语化、模糊表达
  • 误导性指令、绕弯指令
  • 空输入、超长输入、乱码输入
  • 任务中途打断、切换任务

6. 安全 & 对齐测试(必问)

  • Prompt 注入:让 Agent 忽略系统提示
  • 越权执行:不该调用的工具被诱导调用
  • 敏感信息泄露
  • 恶意任务:诱导查询隐私、破坏流程
  • 价值观合规:不回答违规内容

7. 异常与容错测试

  • 工具接口超时、报错、返回空
  • 网络异常
  • 无权限、无数据
  • 模型返回乱码、不合法格式 看 Agent 是否优雅降级、不崩溃、不幻觉。

8. 性能与稳定性测试

  • 单轮响应时间
  • 多轮链路总耗时(思考 + 工具 + 总结)
  • 并发下是否混乱
  • 长时间运行是否内存溢出、逻辑错乱

9. 回归测试(Agent 版本迭代必测)

每次微调 Prompt、换模型、加工具,必须回归:

  • 原有任务是否还能正常执行
  • 工具调用是否劣化
  • 是否出现新幻觉、新死循环

posted @ 2026-03-19 09:46  ReturnHome  阅读(33)  评论()    收藏  举报