惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

N
Netflix TechBlog - Medium
V
Vulnerabilities – Threatpost
Google Online Security Blog
Google Online Security Blog
Hugging Face - Blog
Hugging Face - Blog
L
LINUX DO - 热门话题
云风的 BLOG
云风的 BLOG
P
Proofpoint News Feed
D
Docker
C
Cyber Attacks, Cyber Crime and Cyber Security
MyScale Blog
MyScale Blog
P
Palo Alto Networks Blog
T
Tenable Blog
P
Privacy International News Feed
Google DeepMind News
Google DeepMind News
小众软件
小众软件
Cisco Talos Blog
Cisco Talos Blog
aimingoo的专栏
aimingoo的专栏
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
A
Arctic Wolf
C
Cybersecurity and Infrastructure Security Agency CISA
C
Cisco Blogs
T
Threat Research - Cisco Blogs
NISL@THU
NISL@THU
The Hacker News
The Hacker News
Project Zero
Project Zero
AWS News Blog
AWS News Blog
Simon Willison's Weblog
Simon Willison's Weblog
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
T
Threatpost
V
Visual Studio Blog
The GitHub Blog
The GitHub Blog
The Cloudflare Blog
Last Week in AI
Last Week in AI
Jina AI
Jina AI
Cyberwarzone
Cyberwarzone
The Register - Security
The Register - Security
C
CXSECURITY Database RSS Feed - CXSecurity.com
Vercel News
Vercel News
D
Darknet – Hacking Tools, Hacker News & Cyber Security
MongoDB | Blog
MongoDB | Blog
U
Unit 42
Scott Helme
Scott Helme
A
About on SuperTechFans
WordPress大学
WordPress大学
F
Fortinet All Blogs
大猫的无限游戏
大猫的无限游戏
G
GRAHAM CLULEY
Latest news
Latest news
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
S
Schneier on Security

博客园 - Sameen

上下文工程学习笔记 什么是vibe ? angular中asObservable是什么的,为什么需要用? vscode问题 document cookie JavaScript中的Date squash merge Element.scrollIntoView requestIdleCallback angular学习笔记 [转]React hooks useEffect中如何使用异步函数(即如何使用async/await) css斜条纹背景——linear-gradient 【转】过滤不可见字符 换电脑快捷同步vscode插件和配置 Git自动补全配置安装(Mac版本) Mac上看不到.git目录下的隐藏文件的解决方法 ts 问号点 ?. moment获取本月、上个月、近三个月时间段 iframe优缺点
什么是 embedding ?
Sameen · 2025-10-13 · via 博客园 - Sameen

学习RAG的时候,听到说把文本进行拆分,然后对每一段做 embedding,不知道这里说的embedding是什么意思。

查了一下:

“对每一段做 embedding” ,是自然语言处理(NLP)中的一个核心操作。

简单来说,就是将文本中的每一个段落(或句子、短语)转化为一串数字(向量),让计算机能够 “理解” 文本的语义信息。

  1. 什么是 embedding?Embedding(嵌入)是一种将非结构化数据(如文本、图像)转化为结构化的数字向量的技术
    对于文本来说,它的核心作用是把文字的 “语义含义” 编码成计算机能处理的数字形式。比如,“猫” 和 “狗” 都是动物,它们的 embedding 向量会比较相似;而 “猫” 和 “汽车” 的向量则差异很大 —— 这种向量的 “相似性” 直接反映了文本含义的 “相关性”

  2. “对每一段” 做 embedding 的意义?当处理一篇长文档(如一篇论文、一本书)时,我们通常会先把它拆分成多个段落(或句子),然后给每个段落单独生成一个 embedding 向量。这么做的原因是:

    • 长文本的整体含义复杂,拆分后能更精准地捕捉局部语义(比如某一段专门讲 “算法原理”,另一段讲 “应用场景”);
    • 后续在做 “语义搜索” 或 “问答匹配” 时(比如 RAG 场景),可以直接用用户的问题生成向量,然后快速找到与问题向量最相似的段落向量 —— 相当于让计算机 “定位” 到文档中最相关的内容。
  3. 举个例子:假设你有一段文本:

    • 段落 1:“人工智能是研究使计算机能模拟人类智能的科学。”
    • 段落 2:“机器学习是人工智能的一个分支,专注于让机器从数据中学习。”

    对这两段做 embedding 后,会得到两个向量(比如各是 768 维的数字):

    • 段落 1 的向量和段落 2 的向量会比较相似(因为都和 “人工智能” 相关);
    • 如果有第三个段落讲 “咖啡的制作方法”,它的向量会和前两个差异很大。

通过将每一段转化为向量,计算机就能用数学方法(如计算向量之间的余弦相似度)快速判断 “两段文本的含义是否相近”,这是实现语义搜索、智能问答、文档摘要等功能的基础。

比如在知识库系统中,当你提问时,系统会先把问题转化为向量,再对比所有段落的 embedding 向量,找到最相关的内容来生成回答。