惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

T
The Blog of Author Tim Ferriss
S
Securelist
D
Docker
The Register - Security
The Register - Security
GbyAI
GbyAI
Recorded Future
Recorded Future
Engineering at Meta
Engineering at Meta
Stack Overflow Blog
Stack Overflow Blog
云风的 BLOG
云风的 BLOG
P
Proofpoint News Feed
罗磊的独立博客
博客园 - 【当耐特】
F
Full Disclosure
WordPress大学
WordPress大学
腾讯CDC
小众软件
小众软件
大猫的无限游戏
大猫的无限游戏
D
DataBreaches.Net
SecWiki News
SecWiki News
L
Lohrmann on Cybersecurity
I
InfoQ
MyScale Blog
MyScale Blog
量子位
Cyberwarzone
Cyberwarzone
博客园 - 三生石上(FineUI控件)
The Hacker News
The Hacker News
F
Fortinet All Blogs
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
Jina AI
Jina AI
博客园_首页
H
Help Net Security
K
Kaspersky official blog
酷 壳 – CoolShell
酷 壳 – CoolShell
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
www.infosecurity-magazine.com
www.infosecurity-magazine.com
Webroot Blog
Webroot Blog
Blog — PlanetScale
Blog — PlanetScale
V
Vulnerabilities – Threatpost
Y
Y Combinator Blog
The Cloudflare Blog
P
Proofpoint News Feed
V
Visual Studio Blog
C
Cyber Attacks, Cyber Crime and Cyber Security
T
Tailwind CSS Blog
爱范儿
爱范儿
P
Privacy International News Feed
Security Archives - TechRepublic
Security Archives - TechRepublic
The GitHub Blog
The GitHub Blog
C
Cybersecurity and Infrastructure Security Agency CISA
B
Blog RSS Feed

清华大学 TUNA 协会

金枪鱼之夜:Automaton is all you need? | 清华大学 TUNA 协会 金枪鱼之夜:迎新 & Vanilla OS 3 - Immutable and Reproducible Operating System | 清华大学 TUNA 协会 2026 年春季学期社团联合招新(百团大战) | 清华大学 TUNA 协会 金枪鱼之夜:Avrova Donz 与九条命的镜像站架构艺术 | 清华大学 TUNA 协会 金枪鱼之夜:实验物理垃圾佬的高性能 GPU 集群 | 清华大学 TUNA 协会 金枪鱼之夜:开元-2B:全流程开源的端侧模型预训练实践 | 清华大学 TUNA 协会 金枪鱼之夜:OSPP 2025 项目成果分享 | 清华大学 TUNA 协会 金枪鱼之夜:vLLM: 简单、高效、低成本的大模型推理框架 | 清华大学 TUNA 协会 JetBrains x TUNA 技术交流开放日专题讲座 | 清华大学 TUNA 协会
金枪鱼之夜:ICU Done Wrong: 如何构建多文种的文本索引 | 清华大学 TUNA 协会
清华大学 TUNA 协会 · 2026-04-24 · via 清华大学 TUNA 协会

金枪鱼之夜:ICU Done Wrong: 如何构建多文种的文本索引

为了解决 Telegram 对汉文搜索的问题,几年前 Sharzy 开发了 Python + Whoosh 的消息记录的搜索工具。近日在将其用 Rust + Tantivy 重写的过程中,他发现基于 jieba 的 analyzer 在处理日文时会有显著的问题,于是转向了更加通用的 CJK bigram 方案。但他很快意识到和 Unicode 搏斗并不是一件美妙的事情。Unicode 联盟开发的 ICU (International Components for Unicode) 是一套处理 Unicode 的库集合,但是不同文字之间的差异并不能直接用 ICU 抹平,从拉丁字母、汉字、日文假名、谚文,到阿拉伯字母、希伯来字母、婆罗米系文字,再到越南语拉丁字……试图为这些文字/书写系统构建统一的方案的问题远比看起来要多。

本次 Tunight 上 Sharzy 将会介绍如何在㋿Ξ㍾㍿的 ICU 世界中构建出一套似乎能用的系统——目前仍在锐意开发中。

欢迎大家一起来玩!


活动信息: