

























AI Agent 工程师已经成了 2025-2026 年最火的岗位之一。OpenAI、Anthropic、Google、字节、百度都在招,薪资也给得很猛。但问题来了——Agent 工程师的面试到底考什么?跟普通后端面试有什么不一样?
我把这个岗位的面试拆成了 5 个维度:推理框架、Agent 架构、工具与协议、系统设计、安全与评估。每个维度给出真题和考察点,最后附一张知识图谱。看完这篇,你基本知道该准备什么了。
先搞清楚岗位定位。Agent 工程师不是"会调 API 就行",也不是"搞模型训练的"。它是一个交叉岗位——既需要理解 LLM 的能力边界,又需要工程化的系统设计能力。
典型 JD 要求:
| 维度 | 要求 |
|---|---|
| 编程语言 | Python 必须,TypeScript/Go/Java 加分 |
| LLM 基础 | Transformer 架构理解、Tokenizer、上下文窗口管理 |
| Agent 框架 | LangChain/LangGraph、CrewAI、AutoGen、Semantic Kernel |
| RAG | 向量数据库、Embedding、Chunking 策略、检索评估 |
| 工具调用 | Function Calling 协议、MCP 协议、工具编排 |
| Prompt Engineering | CoT、Few-shot、System Prompt 设计、Prompt 注入防御 |
| 系统工程 | 异步编程、流式输出、错误处理、成本优化 |
这是面试中最基础也最容易深挖的部分。三个框架不是并列关系,是递进关系。
论文:Wei et al., 2022 (arXiv:2201.11903)
核心思想:让 LLM 把推理过程一步步写出来,而不是直接给答案。仅用 8 个 CoT 示例提示 540B 参数模型,GSM8K 数学推理就达到了 SOTA。
面试可能问:
论文:Yao et al., 2022 (arXiv:2210.03629)
CoT 只能"想",不能"做"。ReAct 把推理轨迹(Thought)和具体动作(Action)交错生成,让 Agent 边想边做。每一步的流程:
Thought: 我需要查一下北京今天的天气
Action: call_weather_api("北京")
Observation: 晴,28°C
Thought: 天气不错,可以推荐户外活动
Action: search_activities("北京", "户外")
Observation: ...
关键实验结果:ALFWorld 成功率提升 34%,WebShop 提升 10%。
面试可能问:
论文:Yao et al., 2023 (arXiv:2305.10601)
CoT 是一条线,ToT 是一棵树。允许 LLM 探索多条推理路径,自我评估,回溯。Game of 24 中,CoT 只解决了 4%,ToT 解决了 74%。
面试可能问:
| 框架 | 核心特点 | 适用场景 |
|---|---|---|
| Graph of Thoughts | 图结构推理,可合并多条路径 | 需要综合多条思路的复杂任务 |
| Self-Refine | 迭代自反馈精炼 | 文本生成、代码优化 |
| Reflexion | 基于语言反馈的强化学习 | 决策任务、错误纠正 |
| CodeAct | 用可执行代码统一动作空间 | 编程 Agent |
这是面试中区分度最高的部分。能说清楚短期记忆和长期记忆的设计,基本就过了。
短期记忆(Short-term Memory):
- 当前对话上下文、任务状态
- 实现方式:上下文窗口、滑动窗口、摘要压缩
长期记忆(Long-term Memory):
- 跨会话的知识和经验
- 实现方式:向量数据库(Pinecone/Chroma/Weaviate)、知识图谱、反思机制
经典参考:斯坦福"小镇实验"(Generative Agents, Park et al., 2023)——25 个 AI Agent 涌现出社交行为,核心就是记忆架构:观察 → 记忆存储 → 反思 → 检索 → 规划。
面试可能问:
Agent 怎么决定下一步做什么?
面试可能问:
Agent 执行动作的机制——调用工具、生成代码、操控 GUI 等。
面试可能问:
模型原生的工具调用能力——定义 JSON Schema 描述工具,模型决定何时调用。
面试可能问:
Anthropic 发起的标准化协议,让 Agent 和工具之间有了通用语言。114 个客户端在用,10 种语言 SDK。
面试可能问:
Google 发起的 Agent 间通信协议。Agent Card 描述能力,Task 是交互的基本单元。
面试可能问:
系统设计题是 Agent 面试的重头戏。不是画个架构图就完了,面试官会追问细节。
考察点:Agent 角色分工、任务路由、上下文共享、错误处理。
回答框架:
- 分层架构:路由 Agent → 专业 Agent(退款/技术支持/账户)→ 升级 Agent
- 共享上下文:会话状态持久化、对话摘要传递
- 降级策略:Agent 超时/失败时回退到规则引擎
- Human-in-the-loop:置信度低于阈值时转人工
考察点:Chunking 策略、检索精度、评估指标。
回答框架:
- 文档处理:语义切分 > 固定长度切分
- 检索:混合检索(向量 + 关键词 BM25)+ Reranking
- 生成:引用溯源,标注来源段落
- 评估:Recall@K、MRR、Faithfulness
考察点:工具注册、调度、并行执行、错误处理。
回答框架:
- 工具注册中心:JSON Schema 描述 + 版本管理
- 调度器:依赖分析 → 并行执行 → 结果聚合
- 安全层:权限白名单、沙箱执行、操作审计
- 重试策略:指数退避 + 最大重试次数
考察点:Trace 追踪、日志、监控指标。
回答框架:
- 完整的 Thought-Action-Observation 链路追踪
- 关键指标:任务成功率、工具调用频次、Token 消耗、延迟 P99
- 工具:LangSmith / LangFuse / Phoenix
- 错误回放:记录完整上下文,支持复现
考察点:视觉理解、GUI 操作、安全性。
回答框架:
- 截图 → 视觉模型理解 → 元素定位 → 操作规划 → 鼠标键盘执行
- 安全:操作确认机制、危险操作拦截
- 评估:WebArena / OSWorld 基准
面试中大概率会让你现场写代码。以下是最可能考的实现题:
import json
def react_loop(llm, tools, query, max_steps=10):
messages = [{"role": "user", "content": query}]
for step in range(max_steps):
# 1. LLM 生成 Thought + Action
response = llm.chat(messages, tools=tools)
messages.append(response)
# 2. 解析 Action
if response.tool_calls:
for tool_call in response.tool_calls:
# 3. 执行工具,获取 Observation
result = execute_tool(tools, tool_call)
messages.append({
"role": "tool",
"tool_call_id": tool_call.id,
"content": json.dumps(result)
})
else:
# 没有工具调用,说明 Agent 给出了最终答案
return response.content
return "Max steps reached without final answer"
def rag_pipeline(query, vector_db, llm, top_k=5):
# 1. Embedding
query_embedding = embed(query)
# 2. 检索
docs = vector_db.search(query_embedding, top_k=top_k)
# 3. 重排序(可选)
docs = rerank(query, docs)
# 4. 构造 Prompt
context = "\n".join([d.text for d in docs[:3]])
prompt = f"""Based on the following context, answer the question.
Context: {context}
Question: {query}
Always cite your sources."""
# 5. 生成
return llm.chat(prompt)
面试可能问:
面试可能问:
面试可能问:
面试可能问:
了解你面试的公司的侧重点,准备效率能翻倍。
AI Agent 工程师面试知识图谱
│
├── 推理框架
│ ├── CoT(思维链)— 基础,必会
│ ├── ReAct(推理+行动)— 核心,手写实现
│ ├── ToT(思维树)— 进阶,理解原理
│ └── CodeAct / Self-Refine / Reflexion — 了解即可
│
├── Agent 架构
│ ├── 记忆系统(短期/长期/反思)— 高频考点
│ ├── 规划(任务分解/子目标)— 系统设计必考
│ └── 行动(工具调用/GUI操作)— 编码题常考
│
├── 工具与协议
│ ├── Function Calling — 必会
│ ├── MCP — 2025 热点,了解架构
│ └── A2A — 了解概念和与 MCP 的关系
│
├── 系统设计
│ ├── 多 Agent 协作 — 高频大题
│ ├── RAG 系统 — 几乎必考
│ ├── Agent 框架设计 — 中高级岗
│ └── 可观测性 — 生产级 Agent 必问
│
├── 安全与评估
│ ├── Prompt Injection 防御 — 必问
│ ├── Human-in-the-loop — 必问
│ └── 评估框架(AgentBench 等)— 加分项
│
└── 编码实现
├── ReAct 循环 — 必须能手写
├── RAG Pipeline — 必须能手写
└── 流式输出/异步处理 — 加分项
准备 Agent 面试,不用面面俱到。抓住三条主线:ReAct 循环能手写,RAG Pipeline 能讲清楚,系统设计能画出架构图。这三关过了,其他都是加分项。
作者: itech001
来源: 公众号:AI人工智能时代
网站: https://www.theaiera.cn/
每日分享最前沿的AI新闻资讯和技术研究。
本文首发于 AI人工智能时代,转载请注明出处。
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。