惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

F
Full Disclosure
Recorded Future
Recorded Future
T
Tenable Blog
S
Securelist
C
CERT Recently Published Vulnerability Notes
T
Threatpost
S
Schneier on Security
A
Arctic Wolf
The Hacker News
The Hacker News
C
CXSECURITY Database RSS Feed - CXSecurity.com
Know Your Adversary
Know Your Adversary
P
Privacy International News Feed
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
The Register - Security
The Register - Security
Cisco Talos Blog
Cisco Talos Blog
AWS News Blog
AWS News Blog
K
Kaspersky official blog
T
True Tiger Recordings
T
Threat Research - Cisco Blogs
V
Vulnerabilities – Threatpost
P
Palo Alto Networks Blog
T
The Exploit Database - CXSecurity.com
小众软件
小众软件
B
Blog
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
Microsoft Azure Blog
Microsoft Azure Blog
Cyberwarzone
Cyberwarzone
C
Cybersecurity and Infrastructure Security Agency CISA
T
Tor Project blog
Spread Privacy
Spread Privacy
Malwarebytes
Malwarebytes
P
Proofpoint News Feed
F
Fox-IT International blog
F
Fortinet All Blogs
P
Privacy & Cybersecurity Law Blog
G
GRAHAM CLULEY
量子位
Latest news
Latest news
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
博客园 - 叶小钗
Project Zero
Project Zero
T
Tailwind CSS Blog
N
Netflix TechBlog - Medium
Martin Fowler
Martin Fowler
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
I
Intezer
博客园_首页
腾讯CDC
H
Hackread – Cybersecurity News, Data Breaches, AI and More
D
Darknet – Hacking Tools, Hacker News & Cyber Security

自然语言处理

Humanize-Text 4 步把 AI 文本变成人类写作: DeepSeek×2 + Google + Niutrans cpu/gpu 高性能中英粤文本转语音 TTS 有人能编译跑通 seamlessM4t 吗? 上海某私募 招聘量化研究员(算法模型,深度学习算法,语音算法, nlp, cv,强化学习等方向) 如何快速接入一个有 MCP 能力的 LLM? 有朋友正在学习 nlp 吗? 国内的翻译平台似乎有一个普遍的 bug [请教] [可有偿] 请问有没有懂自然语言处理的大佬,想请教几个问题 高质量数据集对模型开发和 fine-tune 的重要性 请教下本地部署的语音转文字应用 有没有什么语法检查的模型啊? 我是国内的 NLP 从业者,大模型这一波风吹过来了,在公司做大模型感觉前途未卜的样子 [求助]kaggle 中训练模型遇到的一些问题 请问有哪些文章改写润色的开源实现啊 有没有文本内容标注的成熟项目。 NLP 有没有这样的模型,比如搜索 fetch 请求,自动帮你把 fetch/xhr/request 的数据相关性较高的内容展示出来的 GPT 用于知识图谱构建的 NER 和 RE 深度学习如何运用到区块链中? Vecuna 7b 部署与实践 请教一下此类场景在 NLP 中属于哪个功能分支,可否通过 NLP 相关模型实现 如何根据浏览记录关键词对用户做聚类分析? 诚招语言模型训练实习生 有什么办法能获取一个城市下的地名? 博客根据文章内容跑自然语言分析自动识别关键字,有什么廉价的实现方法吗? 请教一个 NLP 的问题 使用 NLP 从书中提取各个角色的台词 Feishu(飞书) 聊天机器人应用 - 定制对话,实现知识库、信息查询、意图识别、多轮对话 Snowboy 离线唤醒 2021 年开始就停止维护,有没有其他大厂的产品可以替代使用? 2070s 跑不了 gpt2 深度学习工程师, 80-200W,杭州,幻方 AI Lab [周三(10.21)分享日] 百度 AI 语音识别应用与场景案例分享 nlp 求教,例如这段文字,如何通过机器学习做到是新冠相关的新闻? 主题模型使用经验 工作么找不到,大家来聊聊你用 Sentiment analysis 做过哪些有趣的事 有检测合同合法性的实战教程么? 针对中文无监督文本切分的优质路子有哪些? Bert 实践遇坑 抓到了一个 ML 新闻训练爬虫网站? 求推荐好的知识图谱研究领域的相关教程、书籍或视频教程? 一款语料处理 Python 辅助工具,能自动计算标注偏移量,各位看看是否有帮助 自然语言处理实习生 [百度智能驾驶事业群车联网] 求自然语音处理架构师,负责车联网负载智能语音助手语义产品的架构和算法整体设计, base 深圳,简历至 linmiaoxuan@baidu.com 三篇关于 BERT/ERNIE 源码解析的博文 有将自然语言转为对应命令的服务或开源项目吗 关于短信内容二分类,请指点一下 V 站的中分分词怎么能做到如此之快的 中文分词在线接口 API 需求调查 电商环境下如何定义两个类别是否相似 Poplar - 基于 Web 技术的 NLP 文本标注工具 求 [自然语言处理算法工程师]18-30K 坐标北京朝阳 硕士及以上
MicroTokenizer: 一个面向教学的微型中文分词引擎
howlanderson · 2018-06-15 · via 自然语言处理

微型中文分词器

一个微型的中文分词器,能够按照词语的频率(概率)来利用构建 DAG (有向无环图)来分词。

特点 / 特色

  • 微型:主要代码只有一个文件,不足 200 行
  • 面向教育:可以导出 graphml 格式的图结构文件,辅助学习者理解算法过程
  • 良好的分词性能:由于使用类似 结巴分词 的算法,具有良好的分词性能
  • 具有良好的扩展性:使用和 结巴分词 一样的字典文件,可以轻松添加自定义字典

演示

在线演示

在线的 Jupyter Notebook 在 Binder

离线演示

分词

代码:

import MicroTokenizer

tokens = MicroTokenizer.cut("知识就是力量")
print(tokens)

输出:

['知识', '就是', '力量']

有向无环图效果演示

DAG of 'knowledge is power'

备注

  • <s></s> 是图的起始和结束节点,不是实际要分词的文本
  • 图中 Edge 上标注的是 log(下一个节点的概率的倒数)
  • 最短路径已经用 深绿色 作了标记

更多演示

"王小明在北京的清华大学读书"

DAG of xiaomin

项目地址

https://github.com/howl-anderson/MicroTokenizer

开发者

Xiaoquan Kong @ https://github.com/howl-anderson

依赖

只在 python 3.5+ 环境测试过,其他环境不做兼容性保障。

安装

pip install git+https://github.com/howl-anderson/MicroTokenizer.git

如何使用

分词

见上文

导出 GraphML 文件

from MicroTokenizer.MicroTokenizer import MicroTokenizer

micro_tokenizer = MicroTokenizer()
micro_tokenizer.build_graph("知识就是力量")
micro_tokenizer.write_graphml("output.graphml")