























💡 站外导读:在语音交互成为AI核心入口的今天,如何实现高精度、低延迟且保护隐私的语音识别,仍是行业核心痛点。云端模型虽强但延迟高、隐私风险大;端侧模型则常在精度与方言支持上妥协。智谱AI此次开源GLM-ASR系列,正是对这一矛盾的精准破局——它首次在开源领域实现了SOTA级性能,同时将模型压缩至可本地运行的1.5B参数,推动语音识别从“可用”迈向“好用、放心用”的新阶段。
GLM-ASR是智谱推出的语音识别模型系列,包括云端的GLM-ASR-2512和开源的GLM-ASR-Nano-2512。GLM-ASR-2512是全球领先的云端语音识别模型,支持多场景、多语种、多口音,字符错误率仅为0.0717。GLM-ASR-Nano-2512是1.5B参数的端侧模型,性能达到开源领域SOTA,支持方言识别、低音量语音捕捉,兼顾隐私保护和低延迟。基于此模型,智谱AI输入法可实现语音转文字、翻译、改写等功能,推动语音交互向高效、智能方向发展。

GLM-ASR-2512:在多场景、多语种、多口音的复杂环境中,字符错误率(CER)仅为0.0717,处于行业领先水平。
GLM-ASR-Nano-2512:在多个基准测试中表现优异,平均错误率仅为4.10%,在开源模型中达到SOTA(State-of-the-Art)水平。

云端调用:访问 智谱开放平台 注册账号,即可调用最新的 GLM-ASR-2512 模型。
本地部署(开源模型):智谱为开源社区提供 GLM-ASR-Nano-2512 模型(1.5B参数),适合在本地运行。模型的权重和推理代码已经发布,开发者能下载并集成到自己的项目中,适合需要隐私保护或离线使用的场景。
办公会议记录:模型可实时将会议语音精准转录为文字,自动生成会议记录,提升办公效率。
教育语言学习:GLM-ASR辅助学生口语练习,支持多语言翻译与发音纠正,助力语言学习。
开发者编程辅助:开发者通过语音输入代码逻辑和注释,GLM-ASR帮助快速生成代码,提高开发效率。
视频内容创作:模型能自动为视频生成多语言字幕,方便内容创作与传播,提升制作效率。
公共场合低音量输入:GLM-ASR优化微弱声音识别,适合在图书馆、办公室等安静场所使用,保护隐私。
智谱开源GLM-ASR,远不止发布一个模型那么简单。它标志着语音大模型正式进入“端云协同、普惠落地”的新阶段。其核心洞察在于:未来的语音交互必须同时解决精度、隐私与延迟这个“不可能三角”。GLM-ASR-Nano-2512以1.5B参数在端侧达到SOTA,尤其是对方言和耳语的优化,精准切入了中国市场多元语言环境的深层需求。这背后是AI模型小型化与场景化工程的成熟。结合其“人设切换”与“语感编程”等功能,可见语音识别正从被动转录工具,演变为能理解意图、适配场景的主动交互智能体。这预示着,以输入法为入口的下一代计算平台竞争,已进入生态与体验的深水区。开源策略将加速应用生态的繁荣,但能否在隐私合规前提下构建可持续的商业模式,将是智谱和整个行业接下来的关键考验。
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。