


























学习RAG的时候,听到说把文本进行拆分,然后对每一段做 embedding,不知道这里说的embedding是什么意思。
查了一下:
“对每一段做 embedding” ,是自然语言处理(NLP)中的一个核心操作。
简单来说,就是将文本中的每一个段落(或句子、短语)转化为一串数字(向量),让计算机能够 “理解” 文本的语义信息。
什么是 embedding?Embedding(嵌入)是一种将非结构化数据(如文本、图像)转化为结构化的数字向量的技术。
对于文本来说,它的核心作用是把文字的 “语义含义” 编码成计算机能处理的数字形式。比如,“猫” 和 “狗” 都是动物,它们的 embedding 向量会比较相似;而 “猫” 和 “汽车” 的向量则差异很大 —— 这种向量的 “相似性” 直接反映了文本含义的 “相关性”。
“对每一段” 做 embedding 的意义?当处理一篇长文档(如一篇论文、一本书)时,我们通常会先把它拆分成多个段落(或句子),然后给每个段落单独生成一个 embedding 向量。这么做的原因是:
举个例子:假设你有一段文本:
对这两段做 embedding 后,会得到两个向量(比如各是 768 维的数字):
通过将每一段转化为向量,计算机就能用数学方法(如计算向量之间的余弦相似度)快速判断 “两段文本的含义是否相近”,这是实现语义搜索、智能问答、文档摘要等功能的基础。
比如在知识库系统中,当你提问时,系统会先把问题转化为向量,再对比所有段落的 embedding 向量,找到最相关的内容来生成回答。
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。