























今天在 GitHub Trending 上看到一个有意思的项目:Hyper-Extract,一个基于大语言模型的智能知识提取与进化框架,能够将高度非结构化的文本转化为持久化、可预测的知识摘要。
Hyper-Extract 是一个智能的、基于 LLM 的知识提取和进化框架,它极大地简化了将高度非结构化文本转换为持久化、可预测和强类型的知识摘要的过程。它能够轻松地将信息提取到广泛的格式中——从简单的集合(列表/集合)和Pydantic 模型,到复杂的知识图谱、超图,甚至时空图。
该项目的核心优势在于提供了8种知识结构、10+提取引擎和80+YAML模板,支持增量进化,可以在任何时间喂入新文档来扩展和完善知识库。它支持多种平台和模型,包括OpenAI、阿里云百炼和本地vLLM部署。
Hyper-Extract 采用三层架构设计:
提供8种强类型数据结构:
包含多种提取算法:
提供80+预设模板,覆盖6个领域:
核心实现代码示例:
from hyperextract import Template
# 创建模板实例
ka = Template.create("general/biography_graph")
# 解析文档
with open("document.md") as f:
result = ka.parse(f.read())
# 显示结果
result.show()
Hyper-Extract 支持增量进化,可以随时添加新文档来扩展和优化知识库:
# 初始化知识库
kb = KnowledgeBase()
# 添加新文档
kb.add_document("new_document.pdf")
# 知识库自动扩展和优化
kb.evolve()
# 使用uv安装(推荐)
uv tool install hyperextract
# 或者使用pip安装
pip install hyperextract
he config init -k YOUR_OPENAI_API_KEY
# 解析文档
he parse examples/en/tesla.md -t general/biography_graph -o ./output/ -l en
# 查询知识库
he search ./output/ "What are Tesla's major achievements?"
# 可视化结果
he show ./output/
he parse paper.pdf -t general/academic_graph -o ./paper_kb/
he show ./paper_kb/
he parse earnings.md -t finance/earnings_graph -o ./finance_kb/
he search ./finance_kb/ "What are the key risk factors?"
from hyperextract import create_client
# 创建客户端(支持本地部署)
llm, emb = create_client(
llm="vllm:Qwen3.5-9B@http://localhost:8000/v1",
embedder="vllm:bge-m3@http://localhost:8001/v1",
api_key="dummy",
)
# 使用模板
from hyperextract import Template
ka = Template.create("general/biography_graph")
with open("document.md") as f:
result = ka.parse(f.read())
result.show()
# custom_template.yaml
language: en
name: Custom Knowledge Graph
type: graph
tags: [general, custom]
description: 'Extract entities and their relationships.'
output:
entities:
fields:
- name: name
type: str
- name: type
type: str
- name: description
type: str
relations:
fields:
- name: source
type: str
- name: target
type: str
- name: type
type: str
identifiers:
entity_id: name
relation_id: '{source}|{type}|{target}'
问题:uv tool install hyperextract 失败
解决方案:
# 检查uv是否正确安装
uv --version
# 如果没有安装uv
curl -LsSf https://astral.sh/uv/install.sh | sh
# 或者使用pip安装
pip install hyperextract
问题:API密钥配置错误 解决方案:
# 重新配置API密钥
he config init -k YOUR_OPENAI_API_KEY
# 检查配置
he config show
问题:模型不支持 解决方案:
# 查看支持的模型
he providers list
# 使用支持的模型
he parse document.md -t general/biography_graph -o output/
问题:处理大文档时内存不足 解决方案:
# 分块处理文档
he parse large_document.pdf -t general/biography_graph -o output/ --chunk-size 5000
# 使用本地部署模型减少网络延迟
he config set llm vllm:Qwen3.5-9B@http://localhost:8000/v1
问题:与现有Python版本不兼容 解决方案:
# 检查Python版本
python --version
# 如果版本低于3.11,升级Python
# 使用pyenv管理多版本Python
pyenv install 3.12.0
pyenv local 3.12.0
Hyper-Extract 是一个功能强大的知识提取框架,它通过提供多种知识结构、提取引擎和预设模板,极大地简化了从非结构化文本中提取和组织知识的过程。该框架特别适合研究人员、数据分析师和需要处理大量文档的组织使用。
其增量进化机制使得知识库能够持续扩展和优化,而支持多种平台和模型的特性则确保了良好的兼容性和灵活性。无论是学术论文分析、金融报表处理还是一般性的文档知识提取,Hyper-Extract 都能提供高效的解决方案。
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。