























现在的 AI 圈子有点像当年的互联网泡沫期,新名词满天飞。今天一个 RAG,明天一个 MCP,后天又是 Agent Skill。
互联网行业很多的朋友都被这些术语吓退,跟别提其它行业的朋友了。其实剥开这些“洋气”的外衣,会发现它们解决的都是很朴素的工程问题,所谓智能体就是所有不需要智能的部分构成的,部分 Skill 就是新瓶装旧酒的一场名词诈骗。当然资本和媒体的营销与造势也“功不可没”。
今天,我就按照我的理解,按照大模型领域发展的时间线,把这些概念像搭积木一样,从最底层的原理逐步向上构建,深度解析这些看似晦涩难懂的名词。
一切的起点,都源于大模型本身及其处理信息的基本方式。
LLM 全称 Large Language Model,翻译成中文就是大语言模型,简称大模型。基本上现在所有的大模型都是基于 Transformer 这套架构训练出来的,这个架构看起来很复杂,实际上一点也不简单。我也只做基本了解,不理解它不影响我们理解其概念,然后用好它。大模型的底层引擎就是它 Transformer 架构最早其实是由 Google 团队在 2017 年的时候提出来的,对应的论文名是叫做 Attention Is All You Need。然而早期训练出来的模型,看起来很“弱智”, 直到 OpenAI 在 2022 年底推出的 GPT 3.5 才真正把它点燃并且引爆全世界。这时候的模型具备了一定的智能,它应该算是第一个真正达到可用级别的大模型了,用过的人都能感受到它的强大,此时它的训练的参数量已经非常庞大了,所以被称为了大语言模型。 仅仅几个月之后在 2023 年 3 月份 GPT 4 发布 它是直接把 AI 的能力天花板拉到了一个新的高度,直到今天 GPT-5.4 依然是业界的标杆之一。
介绍完了大模型的概念,接下来,我们直观认识一下,大模型的工作方式。首先,需要打破一个幻想:大模型并不是像科幻电影里面的机器人一样思考问题。
它的本质是一个超级巨大的“文字接龙”游戏,从工程视角看,它就是一个庞大的数学函数。你给它上文,它根据概率算出下一个最可能出现的字或者词,然后把这个字加进去,再算下一个,不断重复这个过程(预测下一个词 -> 塞回输入 -> 再预测),直到生成完整的回答。这就好像你打字时的“联想输入法”,只不过它的训练数据是整个互联网,所以它接出来的龙,有时候深邃得像哲学家,有时候又无聊得像复读机。它并不像人类一样真正“理解”语义。
既然大模型处理的是数学运算,它就无法直接读懂人类的文字,它接收的是数字 输出的也是数字,所以在人类和大模型之间 必须有一个中间人来做翻译,这个中间人就叫做 Tokenizer ,它负责的是编码和解码两件事情。编码就是把文字变成数字,解码反过来是把数字还原成文字。
你给大模型提一个问题,用自然语言描述了一句话,比如“你叫什么名字”,这句话会先交给 Tokenizer 处理,它要把这些文字转换成数字 需要分两步:
Token ID 和 Token 是一一对应绑定的,Token 是文字,Token ID 是数字。这两个其实本质上是一个意思,只不过是换了种表达方式而已,经过了这两步,原来的一句话就变成了一串 Token ID 组成的列表。然后 Tokenizer 会把这串列表送进模型,模型在内部一顿运算。最终吐出了一个 Token ID, 这个时候 Tokenizer 再次出场, 把这个 Token ID 翻译回 Token, 这就是解码环节的工作了,解码只有一步,那就是映射,把数字转换成文字。前面提到,大模型本质上每次只能返回一个 Token ID, 然后会重复这个过程,直到回答完成。

上周二人民日报发文:token 在中文中被正式命名为“词元”。大模型在运算过程中需要消耗大量的能源,作为服务提供商,提供了服务,收取服务费用是应该的。但是它不能像传统服务接口那样,按调用次数收费,传统服务接口,每个接口有着固定的程式,调用之后的运算成本是可控的。大模型调用一次,用户是让它生成八百字的报告还是生成八万字的报告,这些都是未知且不可控的,于是服务商将 Token 作为计费单元。而这也就要求用户对大模型相关概念有一定的理解,如何使用,才能让大模型消耗最少的 Token 又能最精准的回答问题。

总结:
大模型本身没有长期记忆,它所有的回答都基于当次对话接收到的信息。只能一问一答,不能追问。
那为了进行多轮对话,有一个办法,就是在每次提问时,把前面的问题和它的回答,也就是历史记录当作背景信息带上,加上当前这次的问题,一起发送给大模型。当聊天轮次越来越多,历史记录就会越来越大,所以可以让大模型对前面的历史记录做一次总结精简之后记录下来,下次提问带上这个总结之后的记录作为背景信息就可以。这个记录就是大模型的上下文。
Context 指的是大模型在处理单次任务时所能接收到的全部信息总和,你可以把它看作是模型的“临时记忆体”或“工作记忆”。然后为了解决更复杂的场景,工程师们又设计出一种能够跨会话、跨任务保存、组织、检索并在后续使用的信息机制,就是 Memory(记忆)。 Memory 让 AI 具备了持续学习和个性化服务的能力。
一个强大的 AI 应用(Agent)需要 Context 和 Memory 的紧密配合。

总结:
Prompt(提示词)就是你给大模型的具体问题或指令。比如你让模型“帮我写一首诗”,这句话就是 Prompt。
Prompt 怎么写 直接决定了大模型的输出质量,一个好的 Prompt 应该是清晰的、具体的、明确的。
早期有个专门的领域叫做 Prompt Engineering ,也就是提示词工程。说白了就是研究怎么把话说明白,让大模型更精准地理解你的意图。但随着模型能力增强,现在即使指令模糊,模型也能较好地猜测意图。

纯靠参数知识的大模型存在两个致命弱点:知识会过时(训练数据有截止日期)和无法感知外界(如查天气、发邮件)。为了解决这些问题,技术开始向外扩展。
RAG(检索增强生成)是为了解决大模型“一本正经胡说八道”或知识陈旧的问题。

实际场景:比如某公司,有内部的文档,可能是私有的,不愿意公开的资料。大模型在训练阶段无法拿到这部分数据,那你在对其提问时,它肯定无法准确回答其中的内容。此时通过 RAG 就可以解决这个问题。
有了前面的知识,一个原本只能进行词语接龙的大模型,现在变成了可以对话并且可以不断追问的优秀助理了。然后工程师就不满足于现状了,工程师发现的第一个问题就是大模型没有上网查阅资料的能力,要么就不知道,要么就胡说八道,说的内容都是些过时的消息。不过这很简单呀,给大模型准备一台电脑不就可以了。不可以, 还是那个问题,大模型本身只会词语接龙,其他任何逻辑都无法独立完成,那怎么办,好办,工程师就告诉大模型,如果它需要上网搜索资料的话,就告诉我,然后我帮忙查完资料后再给它不就行了?但很快工程师就发现,这样好像显得自己有点蠢,到底谁是谁的助理? 于是工程师把上网这部分逻辑写成了一段程序,让这个程序去代理工程师和大模型进行沟通并且完成搜索的任务,在外人看来仍然是一问一答就拿到了结果,只不过面向的是这个神秘的程序了,太妙了,这个发明可不得了。这段神秘的程序就是一个 Tool。
Tool(工具/函数)是大模型感知外部世界的接口。大模型本身只能做文字游戏,无法真正执行动作。Tool 就是一段代码(函数),输入参数,输出结果。

MCP(模型上下文协议)是为了解决工具接入标准混乱而诞生的统一协议。它解决了一个核心痛点:如何让大模型安全、统一、标准化地连接外部世界(数据、工具、API)。
在 MCP 出现之前,AI 连接外部工具就像以前的手机充电线,每家厂商(OpenAI、Anthropic、Google)都有自己的接口标准,开发者每做一个新功能,都要重新写一套代码适配,非常繁琐且混乱。

MCP 的出现统一了标准:
如果说大模型(LLM)是“博学的大脑”,那么 AI Agent(智能体) 就是给这个大脑装上了“手和脚”,并赋予了它“独立人格”和“记忆力”。它从一个被动的聊天机器人,变成了一个可以理解目标、自主拆解任务、调用工具并执行到底的智能实体。

可以把 Agent 拆解为四个核心组件,它们共同构成了一个能独立干活的“数字员工”:
| 组件 | 角色类比 | 功能解释 |
|---|---|---|
Agent 的工作方式不再是线性的“输入->输出”,而是一个循环闭环。我们可以用一个“订机票”的例子来模拟这个过程:
为什么 Agent 是现在的热点:
在 2025-2026 年的当下,Agent 之所以爆发,是因为它标志着 AI 从“内容生成”(生成一段文本/图片)转向了“任务解决”(解决一个实际问题)。
前面提到 Agent 已经可以自主完成各类事情了。但是那些 Tools 还是需要编码完成。对于普通用户来说,有一定的门槛。于是诞生了很多的低代码平台,比如 Dify、Coze 等。

在低代码平台的产品界面上,Workflow 往往被视为智能体的一种具体表现形式(即“基于工作流的智能体”),但是它和智能体还是有本质的区别。 Workflow 需要用户确定好第一步做什么,第二步做什么,用户在画布上拖拽节点,创建出一条条“带 AI 插件的流水线”。它和真正 Agent 的区别在于,Workflow 是人为决策的,Agent 是目标驱动自主决策。
适用场景:企业里那些必须按规矩办事的流程,比如“合同审批”、“发票报销”。这里如果用纯 Agent,可能会因为 AI 乱发挥而出错,所以必须用 Workflow 锁死步骤。
最后,我们来到了目前最前沿的 Skill(技能) 阶段,这是 Agent 走向工程化、模块化的关键一步。
Agent Skill 本质上是给 Agent 看的一份说明文档(通常是一个 Markdown 文件)。

回顾这一路的发展,大模型技术的演进逻辑是从单一到复合,从通用到专用:
理解了这些概念,你就看懂了当前 AI 领域几乎所有产品(如 Claude Code, OpenClaw 等)背后的底层逻辑。未来,随着 Token 成本的降低和技术的成熟,这些概念将进一步融合,让 AI 真正成为我们得力的“数字员工”。
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。