惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

S
Secure Thoughts
罗磊的独立博客
T
The Blog of Author Tim Ferriss
人人都是产品经理
人人都是产品经理
博客园 - 叶小钗
Last Week in AI
Last Week in AI
美团技术团队
Google Online Security Blog
Google Online Security Blog
Application and Cybersecurity Blog
Application and Cybersecurity Blog
D
Docker
G
Google Developers Blog
大猫的无限游戏
大猫的无限游戏
酷 壳 – CoolShell
酷 壳 – CoolShell
小众软件
小众软件
月光博客
月光博客
L
LINUX DO - 最新话题
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
W
WeLiveSecurity
H
Heimdal Security Blog
Vercel News
Vercel News
SecWiki News
SecWiki News
Forbes - Security
Forbes - Security
Blog — PlanetScale
Blog — PlanetScale
Google DeepMind News
Google DeepMind News
Exploit-DB.com RSS Feed
Exploit-DB.com RSS Feed
www.infosecurity-magazine.com
www.infosecurity-magazine.com
TaoSecurity Blog
TaoSecurity Blog
T
Troy Hunt's Blog
A
About on SuperTechFans
C
Check Point Blog
S
Security Affairs
Hacker News - Newest:
Hacker News - Newest: "LLM"
AI
AI
WordPress大学
WordPress大学
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
Help Net Security
Help Net Security
博客园_首页
The Last Watchdog
The Last Watchdog
S
SegmentFault 最新的问题
Hugging Face - Blog
Hugging Face - Blog
Security Archives - TechRepublic
Security Archives - TechRepublic
Engineering at Meta
Engineering at Meta
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
I
Intezer
K
Kaspersky official blog
M
MIT News - Artificial intelligence
J
Java Code Geeks
G
GRAHAM CLULEY
P
Palo Alto Networks Blog

YeungYeah's Context

当 AI 开始读懂我的健康数据 Waline 数据源迁移记 我的 RSS 与独立博客阅读史 深度使用语音输入后,还是得继续重视写作 AI 时代,还有什么值得自己写? vibe coding: ccpclean 残留进程清理 Superpower Agent Skills in Gemini 更换博客名字和网络身份标识 赛博"多重国籍":账号折腾实录 用 Claude Skills 翻译博客 真.拥抱 AI 跟着 Alpha Picks 来投资 2025 年度记录
从打字到动嘴:我的语音输入踩坑与探索
YeungYeah · 2026-02-24 · via YeungYeah's Context

从打字到动嘴:我的语音输入踩坑与探索

 Posts  

春节假期刷了不少关于语音输入的帖子,这颗安利我吃下了,决定更进一步拥抱 AI,看看能不能把效率和生产力拉满。

于是,我开始试用各种语音输入软件,强迫自己将日常输入场景切换到“动嘴”模式。目前的这套工作流主要是:使用 “闪电说” 配合 “豆包”“通义千问” 的流式语音模型进行识别转写。

针对不同的输出需求,我的处理方式如下:

  • 大段文字:我在 Gemini 中自定义了一个 Gem,将转写后的“生肉”扔给它,让它帮忙去除口语废话、修正错词。之后,我会再人工过一遍。
  • 短句/碎片想法:通常直接手动修改。

目前的结论是:输入准确率尚可,但距离真正的“生产力自由”还有很长的路要走。 甚至在很多场景下,它处于“不可用”或“不好用”的状态。当然,这可能是我用的工具还不够强,或者我的姿势不对。

试用至今,我有以下几点比较强烈的“劝退”体验:

1. 场景洁癖:不仅挑环境,还挑人

语音输入非常“娇气”。如果环境嘈杂,或者背景里有视频播放的声音,它会把所有杂音一股脑收录进去,直接导致识别翻车。

此外,社交尴尬症也是一大障碍。在户外或公共场合对着手机自言自语,既涉及隐私,又容易打扰别人。相比之下,默默打字才是最得体的选择。目前看来,语音输入几乎只能限制在“独自在家”或“私人房间”这种绝对无人干扰的舒适区。

2. 识别准确率:离“所想即所得”还差口气

即便接入了强大的大模型,识别率依然没能达到让我完全放心的程度。

  • 中英混输是重灾区。
  • 专有名词(人名、地名)经常张冠李戴。

这意味着即使“输入”快了,我后期还得花大量时间去用 AI 二次加工,或者手动“捉虫”确认,省下的时间又被消耗掉了。

3. “废话文学”与 AI 的过度加戏

语音输入的本质决定了它带有浓重的口语特征。说话时的思考停顿、逻辑跳跃、口误,软件都会照单全收。不像打字时,我们在落指前脑子里已经过了一遍逻辑。

虽然可以用大模型来“洗稿”,但这本身也是个折腾过程。以“闪电说”为例,它提供了一个基于大模型的原生文本润色功能。但在实际体验中,这个 AI 表现得 “过分积极” 了。

举个例子:

我原本只是想转写一句:“我想让你做某些事情,排查某个问题。” 结果 AI 自作主张,帮我把“具体的排查步骤”全给脑补并写出来了!

这种“无中生有”的幻觉让我无法接受。

  • 后来我尝试修改提示词(Prompt),强调“绝对不能添加或删减内容”,虽然有好转,但它依然无法 100% 忠实于原话。
  • 更由于是封装好的功能,我无法看到它到底改了哪里(没有 Diff 对比),也无法微调参数,导致这个功能显得十分鸡肋。

4. 缺乏“流式”的安全感

尽管底层的模型是流式的,但软件交互却不支持流式上屏。 这导致我必须说完一大段话,才能看到最终结果。这过程就像 “开盲盒”——如果开头就识别错了,我无法像打字那样及时发现并纠正,只能硬着头皮说完,最后面对一堆乱码更是崩溃。


总结:痛并快乐着

尽管吐槽了这么多,但必须承认:在特定条件下,效率提升是碾压级的。

今天我尝试用 OneNote 记录春节复盘,输出了 1000 多字。如果是手打,至少需要 30-40 分钟,但通过语音口述,仅仅用了十来分钟。这种速度上的快感,确实让人欲罢不能。

上述问题中:

  • 识别、交互、过度加工:本质上是软件和模型不够成熟,未来随着技术迭代,理论上都能解决(比如声纹识别技术成熟后,就能只听主人的声音,过滤背景音)。
  • 环境限制:这是物理规律,就像发微信语音一样,得看场合。

在这个大模型时代,我越来越觉得 “内容”本身比“输入的完美度”更重要。 只要能把核心想法快速抛出来,语法、错字、润色完全可以交给 AI 兜底。特别是在写日记、周记这种不需要高强度逻辑构建的场景下,语音输入简直是神器。

未来一段时间,我预计还会继续“死磕”这套工作流。如果大家有更好的方案,或者正在用什么顺手的语音输入神器,欢迎在评论区给我种草!