惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

T
The Blog of Author Tim Ferriss
S
Securelist
D
Docker
The Register - Security
The Register - Security
GbyAI
GbyAI
Recorded Future
Recorded Future
Engineering at Meta
Engineering at Meta
Stack Overflow Blog
Stack Overflow Blog
云风的 BLOG
云风的 BLOG
P
Proofpoint News Feed
罗磊的独立博客
博客园 - 【当耐特】
F
Full Disclosure
WordPress大学
WordPress大学
腾讯CDC
小众软件
小众软件
大猫的无限游戏
大猫的无限游戏
D
DataBreaches.Net
SecWiki News
SecWiki News
L
Lohrmann on Cybersecurity
I
InfoQ
MyScale Blog
MyScale Blog
量子位
Cyberwarzone
Cyberwarzone
博客园 - 三生石上(FineUI控件)
The Hacker News
The Hacker News
F
Fortinet All Blogs
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
Jina AI
Jina AI
博客园_首页
H
Help Net Security
K
Kaspersky official blog
酷 壳 – CoolShell
酷 壳 – CoolShell
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
www.infosecurity-magazine.com
www.infosecurity-magazine.com
Webroot Blog
Webroot Blog
Blog — PlanetScale
Blog — PlanetScale
V
Vulnerabilities – Threatpost
Y
Y Combinator Blog
The Cloudflare Blog
P
Proofpoint News Feed
V
Visual Studio Blog
C
Cyber Attacks, Cyber Crime and Cyber Security
T
Tailwind CSS Blog
爱范儿
爱范儿
P
Privacy International News Feed
Security Archives - TechRepublic
Security Archives - TechRepublic
The GitHub Blog
The GitHub Blog
C
Cybersecurity and Infrastructure Security Agency CISA
B
Blog RSS Feed

JoyoBlog

Agent 和 skills 的解释和区别 Obsidian 和 dify 做知识库的对比,哪个更适合落地到企业软件测试流程中 针对大模型的性能测试 认识和使用 Hermes Agent 开源自主学习 AI 智能体 针对大模型的安全性测试 全力推进和落地 AI QA 工作流 个人养生羽毛球 - 打球记录 | 卓越笔记 测试岗年终总结方向参考 | 卓越笔记 测试任务提测标准和流程 | 卓越笔记 抽奖日志表统计中奖的次数和奖品出现的概率 | 卓越笔记 AI 系统运转的 7 个关键层级 | 卓越笔记 IPv4和IPv6在位数和长度方面的主要区别 | 卓越笔记 RAG、知识库和上下文的区别和联系 | 卓越笔记 中级系统集成项目管理工程师考试辅导 skill | 卓越笔记
RAG 设计核心知识点总结(知识库建设注意点、 Memory 模块设计、向量数据库对比)
2026-04-28 · via JoyoBlog
一、知识库建设的三大核心痛点 1. 语料治理问题 问题类型 说明 解决方案 版本混乱 同一主题多版本,无人知道哪份生效 分层存储:制度类/流程类/FAQ类/产品类/项目类/聊天记录类 内容质量差 PDF扫描识别差、表格乱、会议纪要混在一起 定主次:正式制度 > 群聊截图/会议纪要 元数据缺失 不知道谁写的、何时生效、适用范围 补元数据:作者、生效时间、适用部门、最新版本标记 💡 关键洞察:RAG最怕的不是"没有资料",而是"资料很多但没有治理"。资料混乱会让系统一本正经地答错。 2. 权限管理问题 权限在RAG中是底座能力,而非附属能力。一个能上线的RAG至少要做到: 能力 说明 检索前过滤 先判断"这个人能看哪些文档",再去检索 片段级控制 同一文档不同段落可有不同权限 答案可追溯 回答要能明确引用来源,来源是否在用户权限范围内 ⚠️ 风险警示:没有权限体系的RAG,演示价值越高,上线风险越大! 3. 召回优化问题 用户提问往往不是标准表达,可能省略背景、混用简称、说口语。解决方案: 多路召回:关键词检索 + 向量检索 查询改写:将口语化问题扩展为多个查询 多跳检索:答案可能分散在多份资料中 二、Agent Memory 模块设计 认知科学视角的三种记忆类型: 记忆类型 内容性质 更新频率 存储策略 检索方式 语义记忆 通用知识(产品条款、政策规则) 低 共享向量库 语义相似度检索 情节记忆 具体事件(用户偏好、历史咨询 低 按用户ID隔离 先过滤用户再匹配 程序性记忆 操作流程/行为规则 修改时更新 系统Prompt 直接注 短期与长期记忆的双层架构 :一个成熟的Agent记忆系统会构建双层架构。 短期记忆 :即当前对话的上下文窗口,使用滑动窗口机制管理,负责处理当前会话的连贯性。 长期记忆 :将重要信息从短期转入长期存储,并通过 提取(Extract)→ 存储(Store)→ 检索(Retrieve)→ 更新/删除(Update/Delete)  的闭环流程进行管理,支持跨会话的用户识别与偏好追踪。 记忆更新的核心挑战 :如何处理信息的矛盾与过时,是记忆管理的核心难题。例如,当用户先说自己有两个孩子后又改正为三个孩子时,系统需要有能力判断是覆盖更新还是保留历史,这比简单的追加或检索要复杂得多。 记忆管理的核心问题 : 写什么:不是所有对话都值得记,需要判断信息价值 怎么存:按记忆类型选择存储策略 怎么取:检索策略要与存储策略匹配 何时更新:信息冲突时的处理(追加vs更新) 何时删除:记忆的清理机制 💡 关键点:"要知道怎么查记忆,还要知道怎么管记忆。记忆管理才是Agent可用不可用的分水岭。" 三、向量数据库与索引算法 为什么RAG需要向量数据库?如果说知识是RAG的血液,那么向量数据库就是驱动血液高效流动的心脏。 对比项 暴力搜索 ANN近似检索 时间复杂度 O(n) 图索引≈O(log n) 100万向量延迟 秒级 毫秒级 召回率 100% 95-99% 速度提升 基准 100-200倍 主流向量索引算法对比: 算法 原理 优点 缺点 HNSW 图导航,从小世界网络找最近邻 高召回率、低延迟 内存占用大、删除成本高 IVFFlat 聚类划分+倒排索引 内存友好、支持批量删除 需要重新训练索引 IVFPQ IVF + 乘积量化 内存占用极小 召回率有损失 生产级必备能力: ✅ 元数据过滤 + 向量相似度联合查询 ✅ 混合检索(向量 + BM25 + RRF融合) ✅ 动态更新(注意HNSW的dead nodes问题) ✅ 权限/多租户隔离 四、核心设计原则总结 ┌─────────────────────────────────────────────────────────────────┐ │ RAG 系统设计金字塔 │ ├─────────────────────────────────────────────────────────────────┤ │ │ │ [生成层] │ │ 模型只是"组织语言的人" │ │ ↑ │ │ [召回层] │ │ 多路召回 | 查询改写 | 多跳检索 │ │ ↑ │ │ [权限层] │ │ 检索前过滤 | 片段级控制 | 答案可追溯 │ │ ↑ │ │ [治理层] │ │ 分层存储 | 主次定级 | 元数据标注 | 版本管理 │ │ ↑ │ │ [基础设施层] │ │ 向量数据库 | ANN索引 | 混合检索 | 多租户隔离 │ │ │ └─────────────────────────────────────────────────────────────────┘ 总结:构建企业级RAG需要具备的系统性思路 RAG 难落效果不好,很多时候不是"脑子不够聪明",而是"资料没整理好、能看什么没管清、该拿什么没拿对"。 构建一个企业级的RAG系统,需要一种超越“模型中心论”的系统性思路。它更像一个 集知识治理、记忆管理、权限管控和高效检索于一体的复杂服务系统 。 避开常见误区 : 不要将RAG简单等同于“ 数据 → 检索 → 模型 ”的线性流程。 不要将权限、数据治理等视为后期可选的“附加项”,它们是系统的“地基”。 需要学会管理Agent的“记忆”,而不仅仅是查询它。 实践路径 :一个科学的构建路径应该是自下而上的: 数据层 :从治理语料、定义元数据和设计权限体系开始。 索引层 :选择合适的向量数据库和索引算法(如HNSW),打造高性能检索。 记忆层 :根据业务场景设计多类型、双时效的记忆管理体系。 应用层 :在稳固的基础上,再集成和优化大模型,实现上层应用。