惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Simon Willison's Weblog
Simon Willison's Weblog
P
Privacy International News Feed
www.infosecurity-magazine.com
www.infosecurity-magazine.com
T
Troy Hunt's Blog
Hacker News - Newest:
Hacker News - Newest: "LLM"
Attack and Defense Labs
Attack and Defense Labs
S
Secure Thoughts
V2EX - 技术
V2EX - 技术
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
O
OpenAI News
Cloudbric
Cloudbric
Google Online Security Blog
Google Online Security Blog
Schneier on Security
Schneier on Security
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
Help Net Security
Help Net Security
Cyberwarzone
Cyberwarzone
G
GRAHAM CLULEY
L
Lohrmann on Cybersecurity
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
Spread Privacy
Spread Privacy
NISL@THU
NISL@THU
N
News and Events Feed by Topic
T
Tenable Blog
S
Security @ Cisco Blogs
N
News and Events Feed by Topic
The Hacker News
The Hacker News
C
CXSECURITY Database RSS Feed - CXSecurity.com
宝玉的分享
宝玉的分享
月光博客
月光博客
酷 壳 – CoolShell
酷 壳 – CoolShell
美团技术团队
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
Google DeepMind News
Google DeepMind News
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
T
Tailwind CSS Blog
V
Visual Studio Blog
P
Proofpoint News Feed
Webroot Blog
Webroot Blog
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
博客园 - 三生石上(FineUI控件)
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
Jina AI
Jina AI
雷峰网
雷峰网
T
The Blog of Author Tim Ferriss
Hugging Face - Blog
Hugging Face - Blog
腾讯CDC
L
LangChain Blog
The Register - Security
The Register - Security
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
博客园 - 聂微东

博客园 - Earic

Agent 直接操作数据库?别急,先看懂这三条路线 前端仔接手C#屎山重构:数据库迁移这趟浑水到底有多深? OpenAI Codex 频繁写 SSD 写入问题的真相与应对方案 向量数据库不是银弹:从枚举漏检到 ReACT 多轮召回的实践路径 AI浪潮下的“幸存者”:从焦虑的碎碎念到构建普通人的新核心竞争力 差点被这套AI工具搞离职...搞懂MCP和Skill后,我发现宇宙的尽头是“写小作文” 花 Opus 的钱买到 Sonnet?一行 Python 代码揭穿 API 服务商的“降本增效”骗局 当 rm -rf 发生在物理机节点:从 Virtualizor 漏洞看你的容灾架构为何不堪一击? 深夜惊魂:一行代码让内存爆炸!从 5秒超时到 50ms 响应,我是如何重构 AI 网关的 只有5%的运营人看懂了:从“死积分”到“数字资产”,36期AI分红背后的博弈论 每秒万级Tick的生死时速:技术总监在Golang与Rust间的深夜抉择 这才是多数据源的正确打开方式!MyBatis-Plus vs Hibernate 底层原理大揭秘,别再瞎配了 拒绝背锅!服务器卡顿CPU却空闲?一文揪出磁盘I/O这个“隐形杀手” 凌晨3点服务器被CPU打爆!从裸奔到铜墙铁壁,这套纵深防御方案救了我的命 【深度解析】SkyWalking 10.2.0版本安全优化与性能提升实战指南 intellij 自动导包 用户中心 - 博客园 用户中心 - 博客园 用户中心 - 博客园 bcrypt 加密 用户中心 - 博客园 用户中心 - 博客园 用户中心 - 博客园 用户中心 - 博客园 用户中心 - 博客园
用本体论重塑现实:破解大语言模型幻觉的疯狂设想
Earic · 2026-06-26 · via 博客园 - Earic

用本体论重塑现实:破解大语言模型幻觉的疯狂设想-900x383

幻觉代价

上个月,某保险公司的客服系统上线了基于 GPT-4 的理赔助手。上线第三天,一位用户咨询“意外摔伤能否理赔”,模型给出“可以全额理赔”的答案——实际上根据保单条款,用户属于既往病史免赔范围。公司最终赔付了 37 万。这不是个例。从代码生成里藏着安全漏洞,到业务报表里凭空捏造数据,大模型的幻觉问题已经让不少团队付出了真金白银的代价。这类问题的麻烦在于:它不是偶发,而是结构性的。因为模型本质上是基于统计的概率计算,它对“事实”没有承诺。如果你也在做或准备做 LLM 应用,建议先收藏本文。后面我会给出一个排查幻觉的清单,以及一套从根源上减少幻觉的架构思路。

01-流程图:展示幻觉导致损失的因果链。从左到右5个节点用箭头连接

根源在哪

先直接说结论:用自然语言作为大模型的输入输出,这个交互范式本身就有问题。大模型的本质是什么?是把语言切分成 token,然后做数学计算——矩阵乘法、注意力机制、概率采样。你发几个字符过去,指望它输出准确、可靠的结果,就像你用方言跟一个外国人喊“去北边找那个卖糖葫芦的”,而不提供地图坐标。幻觉不是模型不够强,而是我们要求它在模糊的语义空间里做精确计算。真正需要的是在人与模型之间加一层——一个由人类建立的、符合现实的语义空间。我称之为“本体论层”。

幻觉现场

来看看典型的幻觉案例。场景一:开发者在 IDE 里问“用 Python 写一个安全的文件上传函数”,GPT-4 输出了 30 行代码,但忽略了检查文件 MIME 类型的步骤,结果生产环境被上传了恶意脚本。场景二:运营人员问“2024 年 Q2 的营收是多少?”,模型从训练数据里拼凑了一个数字,实际上该公司 2024 年 Q2 的数据从未公开。这些案例的共同点不是模型“没学好”,而是它没有“知识”——只有 token 之间的统计关联。就像一个人背下了所有百科词条,但不知道哪些是真事、哪些是小说。如果你在线上也见过类似的现象——模型回答看起来有模有样,但经不住追问——可以先记住一个判断顺序:先问自己,这个答案有没有一个可验证的、外部的事实源?如果模型引用的“事实”你找不到出处,那大概率是幻觉。

02-对比表:左侧'用户期望',右侧'模型输出'。展示3行:第1行

鹦鹉与图书馆

如果把大模型比喻成一只只会学舌的鹦鹉,它学了一亿本书,能复述出漂亮的句子,但不知道句子的真相。而本体论就像一座图书馆的编目系统——每本书放在哪个架位、作者是谁、内容摘要、与其他书的引用关系,都有严格的定义。本体论把现实世界中的“实体”和“关系”用形式化的语言固定下来:比如“张三”是人,“人”有属性“年龄”,“张三年龄=35”。当模型要回答“张三今年多大了”时,它不需要靠概率猜,而是直接从本体知识图谱里查。这就在源头确保了输入模型的计算因子是真实可信的。

03-层级图:展示本体论知识图谱结构。顶部'本体层',下方分三个实

治标不治本

现在主流的对抗幻觉方案是什么?Prompt tuning——写更详细的提示词;Fine-tuning——用领域数据调整模型参数;RAG——从外部文档检索片段拼进上下文。这些方法有用,但都是“外挂”,没有解决模型内部语义无根的问题。RAG 甚至引入了新问题:检索到的文档片段的置信度谁来保证?如果检索到的文档本身就是错的,或者歧义,模型依然会放大错误。这就好比给鹦鹉配了一本参考书,但鹦鹉不认识字,只能对着书页上的形状学舌。更关键的是,这些方案没法复用——换个领域就要重新标数据、调权重、搭检索管道。成本高、维护难、边界不清晰。

本体论层

正确做法:在模型前面建一个本体论层。这个层不是一个模糊的概念,而是一个可运行的组件。它的工作方式是这样的:用户输入自然语言请求→本体层解析请求,识别实体和意图→查询本体知识图谱,获取精确语义→将结构化的数据输入大模型→大模型基于精确语义生成回复。举个例子,用户说“帮我查一下上个月深圳分公司的销售冠军”,本体层会解析出实体“深圳分公司”、“销售冠军”,关系“属于”、“时间范围”,然后从知识图谱里拿到准确的数据记录和计算规则,最后大模型只需要把这些数据组织成语言。整个过程里,模型不再需要“猜测”任何事实。目前已有一些落地实践,比如 OpenKG 社区在做知识图谱与大模型的协同研究,Google 也有专利提到类似架构。如果你是后端架构师,可以从小领域开始:把你的业务实体、属性、关系建模成 OWL/RDF 格式,然后用一个轻量 Agent 对接大模型。

04-流程图:系统架构。从左到右:'用户输入'→'本体论层'(内部

别盲目跟风

当然,这个方案有明确的边界。如果你做的是创意生成(写小说、画图、出营销文案),强行上本体论反而是枷锁——创意需要模糊和联想。本体论最适合的是知识密集、容错率低的业务:金融、医疗、法律、工业运维。另外,构建领域本体本身成本不低——需要领域专家定义实体和关系,并且要持续维护。小团队不要一上来就想做全行业本体,建议聚焦一个闭环场景,比如“售后工单分类与原因分析”,把工单里的产品、故障现象、解决方案先本体化。测试通过后,再逐步扩展。

现实本体化

到这里,你可能会问:既然本体论这么好用,为什么今天没有大规模普及?因为做小本体容易,做大本体难。但我想提出一个“疯狂”的设想:既然 OpenAI 敢花几万亿美元去训练模型参数,为什么我们不敢花一小部分钱,把整个现实世界用语言抽象到一个统一的本体知识图谱里?注意,这不是“又做一个知识图谱”,而是把现实世界的所有重要实体、关系、规则都用形式化语言定义清楚——类似 Palantir 在军事和政府领域做的事情,但规模扩大一万倍。连接主义靠“大力出奇迹”证明了 1000 亿参数能涌现能力,那么符号主义如果也堆到全球级的规模,会不会也发生质变?我倾向于相信会。这不是空想——已经有研究者开始构建“World Model”级别的语义基础,李飞飞团队也在探索用 3D 场景和物理规则来构建可交互的世界知识。

05-时间线:展示人工智能三大流派演进。从左到右:1950-200

三大流派合流

最后总结一下我的核心观点:人工智能三大流派——符号主义(本体论、逻辑推理)、连接主义(大模型、参数化智能)、行为主义(强化学习、与环境交互)——本来就不是互斥的。过去大家觉得符号主义过时了,因为几十年的努力没做出实用系统;现在连接主义用大模型证明了“大力出奇迹”,但幻觉问题又把符号主义的价值重新摆到台前。而行为主义(强化学习)则可以在 Agent 与真实世界交互时,通过 Reward 信号持续校正本体和模型。真正的正确打开方式,是让它们通过 Agent 粘合在一起。如果你正在做 AI 应用,我建议你从今天开始思考:你的业务中哪些“事实”是不可动摇的?把它们本体化。哪些“生成”需要灵活?交给大模型。哪些“反馈”需要学习?用强化学习。三管齐下,才能让 AI 从“看起来聪明”变成“真正可靠”。如果这篇对你有帮助,欢迎点个赞。如果你团队里正好有人负责 AI 落地,也可以直接转给他。如果你在线上踩过更难的幻觉坑,评论区说说你的场景,我们一起讨论。
gzh-tg-1