用本地大模型驱动中文输入法，我做了一个实验性的项目

博客园_首页

Plist 二进制格式 Milvus 和 PGVector，哪个更好？ OpenClaw 已过时？在 VS Code 中运行 Hermes Agent！第30篇文章：一个大三计科生的自白 Manim如何在数学公式中完美显示中文？ Docker 部署 RocketMQ 5 并发编程核心概念辨析 C#事务处理最佳实践：别再让“主表存了、明细丢了”的破事发生 CLI 是什么？为什么大厂突然集体卷命令行？【从0到1构建一个ClaudeAgent】协作-自主Agent UIImageView 设置图片不生效的原因排查最小二乘问题详解20：无先验约束下的增量式SFM自由网平差痞子衡嵌入式：大话双核i.MXRT1180之XIP应用里借助MU实现可靠Flash IAP的方法 AI Chat 封装， SemanticKerne.AiProvider.Unified 已发布 Windows下右键编辑js文件无法打开记事本——在注册表中使用环境变量在后台服务中使用 Scoped 服务，为什么总是报错？ H200 安装驱动并使用sglang启动模型 wireshark 抓包Trap上报告警内容我用 AI 辅助开发了一系列小工具（2）：图片压缩工具 [A Primer On MC and CC] 2.1 Memory Consistency 1 - 指令重排序和 SC 模型 Oracle数据库SCN推进技术详解与实践指南玩转控件:封装个带图片的Label控件 Claude Code 4.7 真正该升级的不是模型，而是你的工作流前端小白一句话，AI 帮我做了个颜值拉满的桌面媒体播放器。当代码不再是门槛，一句话编程就是现实。 5. WorkBuddy: 小龙虾的灵魂三件套，让你的小龙虾不只是工具 SQLite 分片方案实战：三种分片策略的深度对比告别简陋 UI！一款基于 Fluent Design 和基于 WinUI 的开源免费、现代化的 Avalonia UI 控件库关于二进制排列组合枚举的总结 AI开发-python-LangGraph框架（3-27-LangGraph从零实现大模型智能决策工作流） ElasticSearch主分片和副本分片概念详解【002】HTTPS 粗解：证书、TLS 握手与对后端配置的影响 Hermes Agent 一周暴涨五万 Star，但我劝你别急着追明明连接的是Redis的DB0，为什么能查到DB3的数据？【从0到1构建一个ClaudeAgent】协作-Agent团队熟悉电子元器件之后，电子小白下一步该怎么走？ MAF快速入门（23）通过C#类定义Skills .NET 高级开发 | 手写一个对象映射框架 FastAPI数据库ORM怎么选？我肝了三个Demo后，终于不再纠结了 mysqldump 参数拾遗：在遗忘与铭记之间 C# .NET 周刊｜2026年3月5期 Claude code入门 - 陈彦斌一文学习入门 ThingsBoard 开源物联网平台 GitHub 热门项目 | 2026年04月16日如何为GIT设置全局勾子，为每次提交追加信息 Number.isFinite和isFinite与isNaN()和Number.isNaN的区别 PortSwigger SQL注入LAB2 推荐一个测试人必备的Skills，从功能到性能全搞定（附详细实操和安装下载方式）筑基期：掌握Odoo基础核心知识点02（Odoo XML 开发方式详解） GLM模型这么火，咱们用vllm也咧一个呗！深入理解 AbortController：从底层原理到跨语言设计哲学字符串学习笔记多租户系统框架的基础模块设计和分析设计 Apache SeaTunnel Zeta 为什么能做到“又快又稳”？ AI开发-python-LangGraph框架（3-26-LangGraph基本概念及第一个简单样例） Vue 3 组件通信，别只会用 Props 和 Emits 了，这几个狠活儿你得看看 ElasticSearch7.X版本配置密码用Manim实现动态交点计算--从一个动点问题说起团结引擎+Addressable+Instant Game打包抖音小游戏 function call 实战：让 LLM 自动判断 pod 异常、调用日志工具并完成故障分析 bubseek —— 让 Agent 的足迹，变成团队的洞察通过 C# 读取并导出 PDF 书签如何用 GitHub Actions 实现 Steam 自动化发布【从0到1构建一个ClaudeAgent】并发-后台任务 .NET 高级开发 | 定制 ASP.NET Core 框架电子小白：什么是运算放大器（运放） zero2Agent：面向大厂面试的 Agent 工程教程，从概念到生产的完整学习路线堆上的ORW HC32F460 USB CDC通信异常：非对齐访问异常排查 20260413-Hyperbridge 攻击事件：发生在默克尔山上的验证绕过那些喊着AI 要淘汰你的人，正在靠你的焦虑赚大钱！深度学习进阶（八）Swin Transformer 最小二乘问题详解19：带先验约束的增量式SFM优化与实现 SnapTranslate 3.0 正式发布：全局划词翻译 + 完整英语学习闭环，一站式搞定查词、记词、复习工作的意义、工作的困难认知再思考 .NET + AI 进阶实战：基于类的技能开发 - 打造可治理的 Agent 能力模块【从0到1构建一个ClaudeAgent】规划与协调-技能上周热点回顾（4.6-4.12）电子小白的工具三件套：面包板、杜邦线、万能板单表五亿数据的查询优化 | Mysql、StarRocks 2. WorkBuddy：从“我是谁”到“帮我干活” C# 如何减少代码运行时间：7 个实战技巧基于HelixToolkit.SharpDX 渲染3D模型 - 笺上知微从零开始的双臂具身VLA起源及现阶段发展综述 - SkyXZ 记对 xonsh shell 的使用, 脚本编写, 迁移及调优 - pluvium27 受够了Vibe Coding的失控？换个起点，让AI事半功倍从开始配置漏洞环境到漏洞复现流程 - 難しい关于10年工作经验的程序员对OpenClaw的实战经验分享以及看法 - 虚无境 Any metadata 的内存布局 C# .NET 周刊｜2026年3月2期 - InCerry 我帮你测过了，测试圈排名第二的 Skill 依然很牛逼 Skill Discovery | 无监督技能发现的经典工作总结 - MoonOut 上下文工程是什么？过时了么？一文讲明白！ - 一枫说码开了 TUN 模式还是直连？90% 的人都踩过这个坑 AScript扩展多种脚本语言 - rockey627 AI 学习笔记：Agent 的记忆机制你能被装进一个文件里吗？——7 万人把同事"蒸馏"成了 AI - 我没有三颗心脏 Claude Code 通关手册（七）：给 AI 装上技能包——Skills 完全指南 - 暮色之狐在浏览器中快速编辑代码：VSCode Web 集成实践 - Newbe36524 蒸馏自己 skill？基于 Deepseek 的蒸馏器，丐版蒸馏方式，简单便捷 - To_Carpe_Diem Spring AI Aliababa和AgentScope，哪个更好？ - 苏三说技术

曦远Code · 2026-05-01 · via 博客园_首页

从一个问题开始

你有没有用输入法时遇到这样的情况：打了一段话，下一个词的候选列表里，排第一的偏偏不是你想要的那个，但你知道那个词一定在后面几位，因为你刚才已经用过它了。

传统输入法的候选词排序，本质上是一套词频统计系统——它记录的是"全体用户最常用这个词"，而不是"你在当前这段话里最可能用这个词"。两者之间的差距，就是语境理解。

这个问题不是工程问题，而是架构问题。词频表天然无法理解上下文。

而大语言模型，恰好把语境理解做到了极致。

一个有意思的想法

大语言模型在生成文字时，做的事情本质上是：给定前面的所有文字，预测下一个词出现的概率。它把整个上下文都考虑进去了——你说了什么话题，用了什么风格，前一句用的哪个词，这些都影响它的预测结果。

那如果我们把这个能力嫁接到输入法里会怎样？

思路其实很直接：用户输入拼音，拼音作为一个过滤条件，在所有能匹配这个拼音的词里，让 LLM 按当前语境打个分，分最高的排第一。

举个例子：你正在写一篇关于编程的文章，打了 ji 这个拼音。传统输入法可能给你「几」「记」「技」「机」，因为这几个字词频都很高。但如果 LLM 知道你在聊编程，它会给「技」（技术）更高的权重，因为这在编程上下文里更自然。

这不是魔法，这是语言模型本来就有的能力，只是以前没有被用在输入法这个场景。

本项目受到 lime 的启发，探索一种新的输入法思路：利用本地大语言模型的语言理解能力来驱动候选词排序，而非依赖传统的 N-gram 统计词库。

llm-ime 是什么

llm-ime 是我做的一个实验性项目，把上面这个思路实现出来，验证它是否真的可行。

项目的核心是一个 Node.js 服务，加载本地 GGUF 格式的量化模型，接收拼音输入，返回按语境排序的候选词。配套一个 React 写的 Web Dashboard，可以直接在浏览器里打字体验效果，顺便看看输入统计和引擎状态。

screenshot

重要说明： 这是一个实验性项目，目前处于 Web 验证阶段。我用 Web 界面来验证引擎逻辑和响应速度是否达标，而不是真的打算让你把浏览器当输入法用。如果引擎跑通了，下一步才是接入真实的输入法框架（比如 RIME），或者自己写一个原生前端。

用的什么模型

Qwen3-0.6B-IQ4_XS，阿里的 0.6B 参数量化版本，文件大小约 350 MB。

选这个模型的理由：

够小：350 MB 完全可以接受，不像动辄几十 GB 的大模型让人望而却步
够快：CPU 推理也能在秒级出结果，不会让打字等到怀疑人生
够准：Qwen3 系列对中文理解做了专门优化，候选词的语境匹配效果比你想象的要好

模型完全在本地运行，不联网，没有任何数据上传，隐私有保障。

技术实现简介

对技术感兴趣的读者，简单说说实现思路。

整个项目是一个 pnpm monorepo，分为三块：

apps/server：LLM 推理引擎 + HTTP API，用 Hono 框架提供接口，node-llama-cpp 做 GGUF 模型加载和推理
apps/web：React 前端，TanStack Router + Tailwind CSS + shadcn/ui，支持深色/浅色主题
packages/ui：共享组件库

架构上有几个我觉得还挺有意思的地方：

端到端类型安全：用 Hono RPC 做类型共享，服务端定义路由，前端用 hc<AppType>() 创建客户端，请求和响应类型全自动推导，不用写任何手动类型定义。

防卡顿设计：打字这种场景对响应延迟很敏感。LLM 推理天然有延迟，如果每个按键都触发一次推理并等待结果，打字体验会很差。项目里做了几层处理：按键时立即更新输入显示（同步，无延迟），候选词请求经过防抖再发出，用 React 的 useTransition 把候选词更新降为低优先级渲染，后端用版本号机制跳过过时的队列请求，前端用 AbortController 取消已发出的旧请求。这几层叠加下来，打字基本感觉不到卡。

模糊拼音：内置声母/韵母模糊匹配，z↔zh、c↔ch、s↔sh、an↔ang、en↔eng 这些常见错误都能容忍，打快了也不怕。

快速上手

如果你想本地跑起来试试，步骤很简单。

1. 克隆项目

git clone https://github.com/Deali-Axy/llm-ime.git
cd llm-ime
pnpm install

2. 下载模型

项目提供了一个脚本，只下载需要的那个文件（350 MB），不会拉完整的 20+ GB 模型仓库：

pnpm run model:download

3. 启动服务

# 终端 1：后端
pnpm run server:dev

# 终端 2：前端
pnpm run web:dev

打开 http://127.0.0.1:5173 ，就能在浏览器里打字了。

现在的状态和接下来的计划

说实话，现在的效果还有不少值得打磨的地方。候选词排序有时候很准，有时候会有些奇怪的词冒出来，这和模型的 token 粒度、量化精度都有关系。长句联想的效果也不如短词组稳定。

这也是为什么我选择先做 Web 验证——在浏览器里可以很直观地看到引擎的表现，方便调参和改进逻辑。

接下来想做的事：

引擎层面：继续优化候选词评分策略，改善长句联想的稳定性
前端层面：视规划接入 RIME 框架，或者直接写一个原生输入法前端，让它真正能在日常打字中用起来
模型层面：探索更适合这个场景的量化方案，在速度和准确率之间找更好的平衡点

目前这更像是一个"思路验证"阶段，如果你觉得这个方向有意思，欢迎一起聊聊，或者直接来 GitHub 提 Issue / PR。

写在最后

做这个项目的出发点很简单：我觉得现在大家在讲 AI 应用时，总在讲对话、RAG、Agent，但 AI 和更基础的工具的结合（比如输入法）反而很少有人认真做。拼音输入法这个场景天然适合 LLM——有明确的约束（拼音），有丰富的上下文（你打过的字），有即时反馈（你选不选这个词）。

结果出乎意料地不错，350 MB 的模型跑出来的效果比我预想的要好。当然离真正好用还有距离，但这个方向我觉得值得继续探索。

项目代码开放在 GitHub，欢迎 Star、Fork 或者提 Issue 交流想法：

🔗 https://github.com/Deali-Axy/llm-ime

如果你对 AI 工具、开发效率或者有趣的开源项目感兴趣，欢迎关注我：
GitHub @Deali-Axy

微信公众号：「程序设计实验室」专注于互联网热门新技术探索与团队敏捷开发实践，包括架构设计、机器学习与数据分析算法、移动端开发、Linux、Web前后端开发等，欢迎一起探讨技术，分享学习实践经验。

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

推荐订阅源

博客园_首页

从一个问题开始

一个有意思的想法

llm-ime 是什么

用的什么模型

技术实现简介

快速上手

现在的状态和接下来的计划

写在最后