SemanticChunker 语义相似拆分

推荐订阅源

钛媒体：引领未来商业与生活新知

Troy Hunt's Blog

Proofpoint News Feed

Vulnerabilities – Threatpost

Cybersecurity and Infrastructure Security Agency CISA

Kaspersky official blog

Lohrmann on Cybersecurity

Security Latest

Threatpost

Heimdal Security Blog

WeLiveSecurity

Arctic Wolf

Cyber Security Advisories - MS-ISAC

奇客Solidot–传递最新科技情报

GRAHAM CLULEY

IT之家

freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More

TaoSecurity Blog

About on SuperTechFans

cs.CL updates on arXiv.org

News and Events Feed by Topic

Hacker News - Newest: "LLM"

Last Week in AI

The Blog of Author Tim Ferriss

Threat Intelligence Blog | Flashpoint

量子位

cs.CV updates on arXiv.org

OSCHINA 社区最新新闻

博

博客园 - 司徒正美

Apple Machine Learning Research

GbyAI

Vercel News

Cyber Attacks, Cyber Crime and Cyber Security

博客园 - ExplorerMan

大模型sft微调参数优化2 大模型RAG实战，从被骂不靠谱到成为部门MVP，这是我的踩坑全记录【转】推荐 Prompt 模板（大幅提升 JSON 质量）渐进式SFT内化 [推荐]双塔模型(介绍) Agno - 轻量级Python多智能体系统框架 Open WebUI：打造友好且强大的自托管 AI 平台【gradio】使用Gradio快速开发前端界面：基础知识文本切割方案进化概览：从“机械切割”到“智能解构” 大模型RAG的上下文压缩与过滤基于LangChain 实现 Advanced RAG-后检索优化(上)-Reranker 基于LangChain 实现 Advanced RAG-后检索优化(下)-上下文压缩与过滤多Agent协作入门：基于A2A协议的Agent通信（中） ollama部署与open-webui 0基础也能看懂！从0到1手把手教你本地部署大模型Ollama 什么是 AutoModel 大模型基础应用框架（ReACT\SFT\RAG）技术创新及零售业务落地应用 - ExplorerMan - 博客园多模态Embedding模型：从文本到多模态的全面选型指南！ rag 查询检索轮换

SemanticChunker 语义相似拆分

ExplorerMan · 2025-10-11 · via 博客园 - ExplorerMan

from langchain_experimental.text_splitter import SemanticChunker

SemanticChunker 不是 LangChain 的内置组件，而是属于 langchain-experimental 包，这是一个实验性功能的扩展库，包含了一些尚未稳定或官方不推荐生产使用的模块。

✅ 一句话总结：

SemanticChunker 是一个基于语义相似性进行文本分块的实验性工具，它通过嵌入模型判断段落之间的语义距离，动态决定在哪里切分文本。

🔍 内部实现机制简介

SemanticChunker 的核心思想是：

不是按字符数或token数硬切，而是根据语义相似度“智能”切分。

1. 工作流程概览：

表格

复制

步骤	描述
1. 句子分割	先用正则或NLTK等方式把文本切成句子列表。
2. 嵌入向量化	对每个句子调用嵌入模型（如OpenAI、SentenceTransformer）生成向量。
3. 计算相似度	计算相邻句子之间的余弦相似度。
4. 断点检测	如果相似度低于某个阈值，就认为这里是“语义断裂点”，可以切分。
5. 合并块	根据断裂点将句子合并成块，控制块的最大长度（如token数）。

🧠 关键参数（初始化时）

SemanticChunker(
    embeddings,              # 嵌入模型，如 OpenAIEmbeddings()
    buffer_size=1,

🧪 示例代码

from langchain_experimental.text_splitter import SemanticChunker
from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings()
text_splitter = SemanticChunker(embeddings)

text = "你的长文本内容..."
docs = text_splitter.create_documents([text])

for doc in docs:
    print(doc.page_content)

⚠️ 注意事项

表格

复制

项目	说明
性能	每句都要调嵌入模型，速度慢，不适合大批量实时处理。
成本	如果用OpenAI嵌入，token费用高。
实验性	接口可能随时变，不建议生产环境使用。

✅ 替代方案（稳定版）

如果你需要稳定的语义分块，可以考虑：

RecursiveCharacterTextSplitter（LangChain内置）
自定义语义分块：用SentenceTransformer + 聚类/滑动窗口自己实现。

📌 总结一句话：

SemanticChunker 是 langchain-experimental 提供的“语义感知”分块器，用嵌入模型找语义断点，聪明但贵慢，适合实验，不适合量产。

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。