MicroTokenizer: 一个面向教学的微型中文分词引擎 - V2EX

自然语言处理

大语言模型 LLM 中/美两个主要玩家，对应两个语系？ - V2EX Humanize-Text 4 步把 AI 文本变成人类写作： DeepSeek×2 + Google + Niutrans cpu/gpu 高性能中英粤文本转语音 TTS 有人能编译跑通 seamlessM4t 吗？ - V2EX 上海某私募招聘量化研究员（算法模型，深度学习算法，语音算法， nlp， cv，强化学习等方向）如何快速接入一个有 MCP 能力的 LLM? - V2EX 有朋友正在学习 nlp 吗？ - V2EX 国内的翻译平台似乎有一个普遍的 bug - V2EX [请教] [可有偿] 请问有没有懂自然语言处理的大佬，想请教几个问题 - V2EX 高质量数据集对模型开发和 fine-tune 的重要性 - V2EX 请教下本地部署的语音转文字应用 - V2EX 有没有什么语法检查的模型啊？ - V2EX 我是国内的 NLP 从业者，大模型这一波风吹过来了，在公司做大模型感觉前途未卜的样子 [求助]kaggle 中训练模型遇到的一些问题 - V2EX 请问有哪些文章改写润色的开源实现啊 - V2EX 有没有文本内容标注的成熟项目。 - V2EX NLP 有没有这样的模型，比如搜索 fetch 请求，自动帮你把 fetch/xhr/request 的数据相关性较高的内容展示出来的 GPT 用于知识图谱构建的 NER 和 RE - V2EX 深度学习如何运用到区块链中？ - V2EX Vecuna 7b 部署与实践 - V2EX 请教一下此类场景在 NLP 中属于哪个功能分支，可否通过 NLP 相关模型实现 - V2EX 如何根据浏览记录关键词对用户做聚类分析？ - V2EX 诚招语言模型训练实习生 - V2EX 有什么办法能获取一个城市下的地名？ - V2EX 博客根据文章内容跑自然语言分析自动识别关键字，有什么廉价的实现方法吗？ - V2EX 请教一个 NLP 的问题 - V2EX 使用 NLP 从书中提取各个角色的台词 - V2EX Feishu(飞书) 聊天机器人应用 - 定制对话，实现知识库、信息查询、意图识别、多轮对话 - V2EX Snowboy 离线唤醒 2021 年开始就停止维护，有没有其他大厂的产品可以替代使用？ - V2EX 2070s 跑不了 gpt2 - V2EX 深度学习工程师， 80-200W，杭州，幻方 AI Lab - V2EX [周三（10.21）分享日] 百度 AI 语音识别应用与场景案例分享 - V2EX nlp 求教，例如这段文字，如何通过机器学习做到是新冠相关的新闻？ - V2EX 主题模型使用经验 - V2EX 工作么找不到，大家来聊聊你用 Sentiment analysis 做过哪些有趣的事 - V2EX 有检测合同合法性的实战教程么？ - V2EX 针对中文无监督文本切分的优质路子有哪些？ - V2EX Bert 实践遇坑 - V2EX 抓到了一个 ML 新闻训练爬虫网站？ - V2EX 求推荐好的知识图谱研究领域的相关教程、书籍或视频教程？ - V2EX 一款语料处理 Python 辅助工具，能自动计算标注偏移量，各位看看是否有帮助 - V2EX 自然语言处理实习生 - V2EX [百度智能驾驶事业群车联网] 求自然语音处理架构师，负责车联网负载智能语音助手语义产品的架构和算法整体设计， base 深圳，简历至 linmiaoxuan@baidu.com - V2EX 三篇关于 BERT/ERNIE 源码解析的博文 - V2EX 有将自然语言转为对应命令的服务或开源项目吗 - V2EX 关于短信内容二分类，请指点一下 - V2EX V 站的中分分词怎么能做到如此之快的 - V2EX 中文分词在线接口 API 需求调查 - V2EX 电商环境下如何定义两个类别是否相似 - V2EX Poplar - 基于 Web 技术的 NLP 文本标注工具 - V2EX 求 [自然语言处理算法工程师]18-30K 坐标北京朝阳硕士及以上 - V2EX

howlanderson · 2018-06-15 · via 自然语言处理

微型中文分词器

一个微型的中文分词器，能够按照词语的频率（概率）来利用构建 DAG （有向无环图）来分词。

特点 / 特色

微型：主要代码只有一个文件，不足 200 行
面向教育：可以导出 graphml 格式的图结构文件，辅助学习者理解算法过程
良好的分词性能：由于使用类似 结巴分词 的算法，具有良好的分词性能
具有良好的扩展性：使用和 结巴分词 一样的字典文件，可以轻松添加自定义字典

演示

在线演示

在线的 Jupyter Notebook 在

离线演示

分词

代码：

import MicroTokenizer

tokens = MicroTokenizer.cut("知识就是力量")
print(tokens)

输出：

['知识', '就是', '力量']

有向无环图效果演示

DAG of 'knowledge is power'

备注

<s> 和 </s> 是图的起始和结束节点，不是实际要分词的文本
图中 Edge 上标注的是 log(下一个节点的概率的倒数)
最短路径已经用 深绿色 作了标记

项目地址

https://github.com/howl-anderson/MicroTokenizer

开发者

Xiaoquan Kong @ https://github.com/howl-anderson

依赖

只在 python 3.5+ 环境测试过，其他环境不做兼容性保障。

安装

pip install git+https://github.com/howl-anderson/MicroTokenizer.git

如何使用

分词

见上文

导出 GraphML 文件

from MicroTokenizer.MicroTokenizer import MicroTokenizer

micro_tokenizer = MicroTokenizer()
micro_tokenizer.build_graph("知识就是力量")
micro_tokenizer.write_graphml("output.graphml")

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

推荐订阅源

自然语言处理

微型中文分词器

特点 / 特色

演示

在线演示

离线演示

分词

有向无环图效果演示

备注

更多演示

"王小明在北京的清华大学读书"

项目地址

开发者

依赖

安装

如何使用

分词

导出 GraphML 文件