惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

阮一峰的网络日志
阮一峰的网络日志
D
Darknet – Hacking Tools, Hacker News & Cyber Security
S
Schneier on Security
The Last Watchdog
The Last Watchdog
Cyberwarzone
Cyberwarzone
S
Securelist
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
C
Cyber Attacks, Cyber Crime and Cyber Security
L
Lohrmann on Cybersecurity
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
博客园 - 司徒正美
The Cloudflare Blog
V
V2EX
博客园_首页
博客园 - 聂微东
Vercel News
Vercel News
人人都是产品经理
人人都是产品经理
G
GRAHAM CLULEY
T
Tenable Blog
Last Week in AI
Last Week in AI
Y
Y Combinator Blog
L
LINUX DO - 最新话题
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
SecWiki News
SecWiki News
博客园 - 三生石上(FineUI控件)
S
Secure Thoughts
N
News | PayPal Newsroom
T
The Blog of Author Tim Ferriss
The GitHub Blog
The GitHub Blog
T
Troy Hunt's Blog
博客园 - 【当耐特】
Forbes - Security
Forbes - Security
H
Hacker News: Front Page
A
About on SuperTechFans
B
Blog RSS Feed
Engineering at Meta
Engineering at Meta
MongoDB | Blog
MongoDB | Blog
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
罗磊的独立博客
D
DataBreaches.Net
P
Privacy & Cybersecurity Law Blog
Schneier on Security
Schneier on Security
Application and Cybersecurity Blog
Application and Cybersecurity Blog
Google DeepMind News
Google DeepMind News
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
Jina AI
Jina AI
D
Docker
P
Proofpoint News Feed

清华大学 TUNA 协会

金枪鱼之夜:Automaton is all you need? | 清华大学 TUNA 协会 金枪鱼之夜:迎新 & Vanilla OS 3 - Immutable and Reproducible Operating System | 清华大学 TUNA 协会 2026 年春季学期社团联合招新(百团大战) | 清华大学 TUNA 协会 金枪鱼之夜:Avrova Donz 与九条命的镜像站架构艺术 | 清华大学 TUNA 协会 金枪鱼之夜:实验物理垃圾佬的高性能 GPU 集群 | 清华大学 TUNA 协会 金枪鱼之夜:开元-2B:全流程开源的端侧模型预训练实践 | 清华大学 TUNA 协会 金枪鱼之夜:OSPP 2025 项目成果分享 | 清华大学 TUNA 协会 金枪鱼之夜:vLLM: 简单、高效、低成本的大模型推理框架 | 清华大学 TUNA 协会 JetBrains x TUNA 技术交流开放日专题讲座 | 清华大学 TUNA 协会
金枪鱼之夜:ICU Done Wrong: 如何构建多文种的文本索引 | 清华大学 TUNA 协会
清华大学 TUNA 协会 · 2026-04-24 · via 清华大学 TUNA 协会

金枪鱼之夜:ICU Done Wrong: 如何构建多文种的文本索引

为了解决 Telegram 对汉文搜索的问题,几年前 Sharzy 开发了 Python + Whoosh 的消息记录的搜索工具。近日在将其用 Rust + Tantivy 重写的过程中,他发现基于 jieba 的 analyzer 在处理日文时会有显著的问题,于是转向了更加通用的 CJK bigram 方案。但他很快意识到和 Unicode 搏斗并不是一件美妙的事情。Unicode 联盟开发的 ICU (International Components for Unicode) 是一套处理 Unicode 的库集合,但是不同文字之间的差异并不能直接用 ICU 抹平,从拉丁字母、汉字、日文假名、谚文,到阿拉伯字母、希伯来字母、婆罗米系文字,再到越南语拉丁字……试图为这些文字/书写系统构建统一的方案的问题远比看起来要多。

本次 Tunight 上 Sharzy 将会介绍如何在㋿Ξ㍾㍿的 ICU 世界中构建出一套似乎能用的系统——目前仍在锐意开发中。

欢迎大家一起来玩!


活动信息: