惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

WordPress大学
WordPress大学
The GitHub Blog
The GitHub Blog
F
Fortinet All Blogs
Cloudbric
Cloudbric
P
Palo Alto Networks Blog
T
Threatpost
T
Tor Project blog
T
Tenable Blog
AWS News Blog
AWS News Blog
Project Zero
Project Zero
L
LangChain Blog
Cyberwarzone
Cyberwarzone
Engineering at Meta
Engineering at Meta
雷峰网
雷峰网
C
CERT Recently Published Vulnerability Notes
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
Security Latest
Security Latest
云风的 BLOG
云风的 BLOG
I
Intezer
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
P
Proofpoint News Feed
A
Arctic Wolf
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
Google DeepMind News
Google DeepMind News
V
Vulnerabilities – Threatpost
C
Cybersecurity and Infrastructure Security Agency CISA
MongoDB | Blog
MongoDB | Blog
aimingoo的专栏
aimingoo的专栏
K
Kaspersky official blog
Jina AI
Jina AI
N
News | PayPal Newsroom
T
The Blog of Author Tim Ferriss
D
DataBreaches.Net
A
About on SuperTechFans
博客园 - 三生石上(FineUI控件)
博客园 - 【当耐特】
Hugging Face - Blog
Hugging Face - Blog
Recorded Future
Recorded Future
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
S
Secure Thoughts
TaoSecurity Blog
TaoSecurity Blog
P
Privacy & Cybersecurity Law Blog
P
Proofpoint News Feed
MyScale Blog
MyScale Blog
IT之家
IT之家
Forbes - Security
Forbes - Security
The Hacker News
The Hacker News
Last Week in AI
Last Week in AI
T
Threat Research - Cisco Blogs
Y
Y Combinator Blog

YeungYeah's Context

当 AI 开始读懂我的健康数据 Waline 数据源迁移记 我的 RSS 与独立博客阅读史 深度使用语音输入后,还是得继续重视写作 AI 时代,还有什么值得自己写? vibe coding: ccpclean 残留进程清理 Superpower Agent Skills in Gemini 更换博客名字和网络身份标识 赛博"多重国籍":账号折腾实录 用 Claude Skills 翻译博客 真.拥抱 AI 跟着 Alpha Picks 来投资 2025 年度记录
从打字到动嘴:我的语音输入踩坑与探索
YeungYeah · 2026-02-24 · via YeungYeah's Context

从打字到动嘴:我的语音输入踩坑与探索

 Posts  

春节假期刷了不少关于语音输入的帖子,这颗安利我吃下了,决定更进一步拥抱 AI,看看能不能把效率和生产力拉满。

于是,我开始试用各种语音输入软件,强迫自己将日常输入场景切换到“动嘴”模式。目前的这套工作流主要是:使用 “闪电说” 配合 “豆包”“通义千问” 的流式语音模型进行识别转写。

针对不同的输出需求,我的处理方式如下:

  • 大段文字:我在 Gemini 中自定义了一个 Gem,将转写后的“生肉”扔给它,让它帮忙去除口语废话、修正错词。之后,我会再人工过一遍。
  • 短句/碎片想法:通常直接手动修改。

目前的结论是:输入准确率尚可,但距离真正的“生产力自由”还有很长的路要走。 甚至在很多场景下,它处于“不可用”或“不好用”的状态。当然,这可能是我用的工具还不够强,或者我的姿势不对。

试用至今,我有以下几点比较强烈的“劝退”体验:

1. 场景洁癖:不仅挑环境,还挑人

语音输入非常“娇气”。如果环境嘈杂,或者背景里有视频播放的声音,它会把所有杂音一股脑收录进去,直接导致识别翻车。

此外,社交尴尬症也是一大障碍。在户外或公共场合对着手机自言自语,既涉及隐私,又容易打扰别人。相比之下,默默打字才是最得体的选择。目前看来,语音输入几乎只能限制在“独自在家”或“私人房间”这种绝对无人干扰的舒适区。

2. 识别准确率:离“所想即所得”还差口气

即便接入了强大的大模型,识别率依然没能达到让我完全放心的程度。

  • 中英混输是重灾区。
  • 专有名词(人名、地名)经常张冠李戴。

这意味着即使“输入”快了,我后期还得花大量时间去用 AI 二次加工,或者手动“捉虫”确认,省下的时间又被消耗掉了。

3. “废话文学”与 AI 的过度加戏

语音输入的本质决定了它带有浓重的口语特征。说话时的思考停顿、逻辑跳跃、口误,软件都会照单全收。不像打字时,我们在落指前脑子里已经过了一遍逻辑。

虽然可以用大模型来“洗稿”,但这本身也是个折腾过程。以“闪电说”为例,它提供了一个基于大模型的原生文本润色功能。但在实际体验中,这个 AI 表现得 “过分积极” 了。

举个例子:

我原本只是想转写一句:“我想让你做某些事情,排查某个问题。” 结果 AI 自作主张,帮我把“具体的排查步骤”全给脑补并写出来了!

这种“无中生有”的幻觉让我无法接受。

  • 后来我尝试修改提示词(Prompt),强调“绝对不能添加或删减内容”,虽然有好转,但它依然无法 100% 忠实于原话。
  • 更由于是封装好的功能,我无法看到它到底改了哪里(没有 Diff 对比),也无法微调参数,导致这个功能显得十分鸡肋。

4. 缺乏“流式”的安全感

尽管底层的模型是流式的,但软件交互却不支持流式上屏。 这导致我必须说完一大段话,才能看到最终结果。这过程就像 “开盲盒”——如果开头就识别错了,我无法像打字那样及时发现并纠正,只能硬着头皮说完,最后面对一堆乱码更是崩溃。


总结:痛并快乐着

尽管吐槽了这么多,但必须承认:在特定条件下,效率提升是碾压级的。

今天我尝试用 OneNote 记录春节复盘,输出了 1000 多字。如果是手打,至少需要 30-40 分钟,但通过语音口述,仅仅用了十来分钟。这种速度上的快感,确实让人欲罢不能。

上述问题中:

  • 识别、交互、过度加工:本质上是软件和模型不够成熟,未来随着技术迭代,理论上都能解决(比如声纹识别技术成熟后,就能只听主人的声音,过滤背景音)。
  • 环境限制:这是物理规律,就像发微信语音一样,得看场合。

在这个大模型时代,我越来越觉得 “内容”本身比“输入的完美度”更重要。 只要能把核心想法快速抛出来,语法、错字、润色完全可以交给 AI 兜底。特别是在写日记、周记这种不需要高强度逻辑构建的场景下,语音输入简直是神器。

未来一段时间,我预计还会继续“死磕”这套工作流。如果大家有更好的方案,或者正在用什么顺手的语音输入神器,欢迎在评论区给我种草!