惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

H
Help Net Security
Scott Helme
Scott Helme
爱范儿
爱范儿
WordPress大学
WordPress大学
博客园 - 三生石上(FineUI控件)
阮一峰的网络日志
阮一峰的网络日志
博客园 - Franky
V
V2EX
腾讯CDC
博客园_首页
博客园 - 司徒正美
酷 壳 – CoolShell
酷 壳 – CoolShell
T
Tailwind CSS Blog
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
小众软件
小众软件
J
Java Code Geeks
大猫的无限游戏
大猫的无限游戏
月光博客
月光博客
Microsoft Azure Blog
Microsoft Azure Blog
B
Blog
雷峰网
雷峰网
Stack Overflow Blog
Stack Overflow Blog
IT之家
IT之家
罗磊的独立博客
Recorded Future
Recorded Future
博客园 - 聂微东
O
OpenAI News
S
Secure Thoughts
Hacker News: Ask HN
Hacker News: Ask HN
S
Schneier on Security
Hacker News - Newest:
Hacker News - Newest: "LLM"
Y
Y Combinator Blog
C
Cyber Attacks, Cyber Crime and Cyber Security
Project Zero
Project Zero
宝玉的分享
宝玉的分享
K
Kaspersky official blog
N
Netflix TechBlog - Medium
T
The Exploit Database - CXSecurity.com
Google Online Security Blog
Google Online Security Blog
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
Webroot Blog
Webroot Blog
云风的 BLOG
云风的 BLOG
Simon Willison's Weblog
Simon Willison's Weblog
C
Check Point Blog
D
Darknet – Hacking Tools, Hacker News & Cyber Security
L
LINUX DO - 热门话题
美团技术团队
L
Lohrmann on Cybersecurity

人人都是产品经理

为什么你的产品找不到差异化?90%的失败都卡在第一步上(下) – 人人都是产品经理, 3年从30万到1300万用户、获2200万美元融资,这个AI教育产品用“抽卡”破解了获客难题 – 人人都是产品经理, 园区招商系统怎么做才能真正帮到去化?我加了这一个功能,推广链接转发400次阅读过万 – 人人都是产品经理, AI大事件:OpenAI发完网络安全模型又搞药物研发,小鹏汽车要抓”DeepSeek时刻” – 人人都是产品经理, 电商不是卖货,是一场更残酷的产品经理实战 – 人人都是产品经理, 没想到,活动营销又回来了! – 人人都是产品经理, 为何All-in海外KOC:一场关于AI时代窗口期的豪赌 – 人人都是产品经理, 重新理解企业的内部协作 – 人人都是产品经理, 苹果的 AI 战略到底是什么? – 人人都是产品经理, 医疗智能体·第2讲——合规护城河:等保、PIPL与HIPAA的架构实战 – 人人都是产品经理, 向量知识库五步法:从“答非所问”到“精准回复” – 人人都是产品经理, 鸿蒙PC三方库构建总指挥HPKBUILD(sha)库为例 – 人人都是产品经理, 何时该用LLM?AI产品经理的LLM设计指南 – 人人都是产品经理, 医疗信息领域的需求方、决策方、准入方以及关注点(二) – 人人都是产品经理, 即梦涨价:一场被误读的「傲慢」 – 人人都是产品经理, 面试AI PM必答题:Hermes和OpenClaw的区别,如何讲清楚业务价值 – 人人都是产品经理, AI的下一张船票:世界模型——AI产品经理必须理解的技术拐点 – 人人都是产品经理, 小红书做GEO,怎么让AI信你?记住这 3 个重要信息 – 人人都是产品经理, 5 家印度 AI 初创公司,看看印度 AI 再做什么 – 人人都是产品经理, AI项目跨团队协作:产品技术业务如何不打架 – 人人都是产品经理, Agentic Workflow(智能体工作流):让AI从”答案生成器”变成”数字员工” – 人人都是产品经理, lycium_plusplus 项目全景解读:OpenHarmony 三方库构建的“大管家” – 人人都是产品经理, 从爆单救火到前置履约:两套预采策略,把生鲜大促履约效率拉满 – 人人都是产品经理, 什么时候该补货?我用一轮数据做了一个决定 – 人人都是产品经理, 从“机械兜底”到“动态分流”:AI客服重复进线治理的4大底层逻辑 – 人人都是产品经理, 抖音拼效率,红书拼洞察 – 人人都是产品经理, 全民狂欢与退潮——为什么龙虾这波热潮冷却得如此之快? – 人人都是产品经理, Stripe押注!MPP重塑全球支付 – 人人都是产品经理, 小红书GEO:AI引用你的内容,不是因为你对,而是因为你看起来可信 – 人人都是产品经理, 前百度副总裁押注办公Agent,日韩付费爆发,Manus迎来强劲对手 – 人人都是产品经理, 企事业单位数字化的业务供需本质 – 人人都是产品经理, 医疗智能体·第1讲——医疗信息化重构:从“辅助软件”到“自主智能体”的范式转移 – 人人都是产品经理, 粉丝量就是空气!!! – 人人都是产品经理, 用户说“薯片碎了”,机器回“要买吗?”:意图识别的翻车与破局 – 人人都是产品经理, RAG召回准确率从75到90 我做对了这三件事 – 人人都是产品经理, AI大事件:Anthropic改收费、OpenAI发安全版、手术机器人纳入医保、阿里发布”秒悟” – 人人都是产品经理, Chrome 推出 Skills 新功能,Agent 重塑上网方式 – 人人都是产品经理, GitHub前创始人拿了a16z的1700万美元,做Agent时代的Git – 人人都是产品经理 拷贝或克隆其他 Flutter OH 项目到本地后无法运行 – 人人都是产品经理, 优惠券设计:优惠券创建 – 人人都是产品经理, 不用死磕文档!AI 助手 1 小时搞定飞书 CLI 安装 + 配置 + 知识库 – 人人都是产品经理, 用小龙虾做竞品分析报告:从2天到20分钟,我是怎么做到的 – 人人都是产品经理 用小龙虾做市场分析报告:搞懂这3个公式,市场规模不再靠猜 – 人人都是产品经理, 你早就在做 Harness 工程,只是不知道它叫这个名字 – 人人都是产品经理, Think Long就够?你可能想多了! – 人人都是产品经理, 货代SRM实战:供应商准入怎么做,才能让资源池不是通讯录而是可交付网络? – 人人都是产品经理, 如何做好用户调研?详解基本技巧 – 人人都是产品经理, 木鸟、途家、美团对打,平台春天行动开“卷” – 人人都是产品经理, 入职才发现公司不靠谱?小红书从业者求职避坑指南 – 人人都是产品经理, 美国 AI 三巨头联手封堵,中国 AI 突围之路在何方 – 人人都是产品经理, 小红书,放在需求对面的镜子 – 人人都是产品经理, AI 会带来大规模失业吗? – 人人都是产品经理, 从出单到补货前,我第一次犹豫:该不该放大? – 人人都是产品经理, Flutter 三方库鸿蒙化适配:5 种高效检查方式,快速判断是否需要适配 – 人人都是产品经理, 从做产品进阶拿结果:医美机构产品经理转岗科室运营经理 – 人人都是产品经理, 阿里HappyHorse,一场关于“Token经济”的阳谋 – 人人都是产品经理, To B AI:客户留存落地的观察与思考 – 人人都是产品经理, AI产品的“生命线”——数据采集、标注、清洗的产品化设计 – 人人都是产品经理, 谈谈AI Agent(二):当“孩子”能自己“体验世界”时,你该学什么? – 人人都是产品经理, UI/UX设计师的3层能力进阶,前两层让你活下来,第三层…才是真正的分水岭 – 人人都是产品经理, 2分钟 → 30秒,效率提升75%:B端产品经理如何用「规则枷锁」驯服AI幻觉? – 人人都是产品经理, 还没来得及学OpenClaw,来了个更猛的:Hermes Agent – 人人都是产品经理, AI日报:宇树机器人跑出10m/s刷新世界纪录 – 人人都是产品经理, 一文说透基金互金如何用情绪价值引导用户决策做转化 – 人人都是产品经理, 当浏览器开始替你”看”网页:AI 浏览器正在亲手拆掉它脚下的那张网 – 人人都是产品经理, 0代码,一天时间我Vibe Coding了个网站 – 人人都是产品经理, Hermes 和 OpenClaw 之争,Agent 的能力应该“装上去”还是“长出来”? – 人人都是产品经理 视频生成的“桌子”,字节Seedance 2掀完,阿里快乐马掀 – 人人都是产品经理, 从听不懂到完全信任:我的 Codex 深度产品体验 – 人人都是产品经理, 当虚拟偶像有了北京户口,与真人偶像还有什么区别? – 人人都是产品经理, 会说,远远比会做更重要 —— 对 SBTI 爆火现象的五层观察 – 人人都是产品经理, AI产品经理必看:当“搭环境”比“选模型”更重要,你的认知还在2024年吗? – 人人都是产品经理, 2026年AI产品商业化核心逻辑:从功能demo到规模化营收的3个必破卡点 – 人人都是产品经理, 京东围绕供应链,卷起裤腿下场的那些事儿 – 人人都是产品经理, SBTI一夜刷屏:它赢在了“太会说人话” – 人人都是产品经理, 折扣零售的真相:不是便宜,而是价值感! – 人人都是产品经理, 和甲方吵了一架,最后加钱做了——我学到的ToB产品经理生存法则 – 人人都是产品经理, 和几位小红书操盘手聊了8小时,干货全在这 – 人人都是产品经理, 智谱GLM-5.1登场,开源模型首超Opus4.6!!! – 人人都是产品经理 Anthropic收入凭什么反超OpenAI,终于有人把这事说清楚了 – 人人都是产品经理, 史上最有故事感的技术报告——Claude最强模型Mythos 7个极其精彩的细节 – 人人都是产品经理, 模型不是壁垒,Harness 也不是 – 人人都是产品经理, 抖音本地生活业务思考21 – 人人都是产品经理, Superpowers:145k Star的AI编码框架,到底是什么来头? Superpowers:145k Star的AI编码框架,到底是什么来头? – 人人都是产品经理, OpenAI 的路走错了,Anthropic Harness 解法启示:模型需要实践专科生 – 人人都是产品经理, 画原型图的前一步:设计站点地图 – 人人都是产品经理, 给 DeepSeek 的最后一封催更信 – 人人都是产品经理, 手把手教你用 Claude Code 搭建 AI 营销团队:5 个 Agent、12 项技能,独立完成研究、写作、设计全流程 – 人人都是产品经理, 你以为大模型在学语言?不,它在重新发明语言学 – 人人都是产品经理 所谓Skill,不过是AI时代的工业垃圾 – 人人都是产品经理, 聊一聊内容传播的几个方法 – 人人都是产品经理, 当平台开始吃掉生态:从 OpenClaw 被封杀,读懂 Anthropic 的这盘棋 – 人人都是产品经理, 你装了 10 个 AI 插件,Obsidian 还是一个文件夹 – 人人都是产品经理 关于AI智能体架构演进的系统性思考:从单体试水到多体协同的重构 – 人人都是产品经理, 当“人”变成Skill,我们又该何去何从? – 人人都是产品经理 Mythos 事件:前沿 AI 治理的意外实验 – 人人都是产品经理, 货代CRM:信用与风险管理怎么做,才能把坏账风险拦在放货之前? – 人人都是产品经理, 从HR收集自拍照到员工自助录入——我见证了园区人脸识别从”不可用”到”真好用”的全过程 – 人人都是产品经理 千问闯关AI混沌期:阿里画靶,吴嘉张弓,马云射箭? – 人人都是产品经理,
一起聊聊,智能座舱语音交互的发展现状和趋势
薛志荣 · 2022-09-21 · via 人人都是产品经理

在功能层上进行合理布局、给予用户完善的交互体验,是几乎所有产品都需要遵循的一个原则,智能座舱产品也不例外。那么智能座舱的语音交互功能,包括哪些组成环节?本篇文章里,作者针对智能座舱的语音交互设计及发展做了解读,一起来看。

‍之前有车企的负责人咨询当前智能座舱语音交互的现状和发展趋势,笔者借此做个简单的总结和归纳,以下内容将分为语音交互的唤醒、聆听、理解、播报4个部分。

一、唤醒

1. 声源定位从双音区发展到四音区

使用声源定位的目的主要有两个,第一个目的是知道是谁在说话并提供个性化服务,例如副驾说“打开窗户”,这时只有副驾的窗户会被打开;第二个目的是实现定向拾音,由于车内外环境的噪音较大,同时乘客之间的讨论和回声会影响语音交互的拾音质量,因此声源定位能让麦克风阵列锁住某个方向的声音。

双音区的意思是将座舱分为左侧和右侧,无法识别是驾驶员还是后排左侧的乘客说话,因此局限性较大。四音区可以将座舱区分为驾驶员、副驾、后排左侧和后排右侧四个区域,能较好地解决双音区的问题。

以下是腾讯腾讯AI Lab总结的各种车载麦克风阵列分布形式,及其优缺点 。

智能座舱语音交互的发展现状和趋势

2. 语音交互支持One-Shot

部分语音技术供应商支持“One-Shot”技术,这也被称为“唤醒连说”。它的意思是“唤醒词+意图识别”一体化,支持用户可以在说出唤醒词之后不作停顿,立刻说出后续需求。

例如用户直接说“Alexa帮我打开车窗”,Alexa就能直接把车窗打开。这种方式摒弃传统的一问一答的形式,极大减少用户语音操控的步骤,化繁为简,操作简便。“One-Shot”不会改变语音交互设计的任何逻辑,但它能明显提升使用时的体验。

3. 语音交互支持唤醒词+离线意图识别

离线识别就是为了解决信号不好导致指令无法执行的问题。为了控制硬件成本和体积大小,客户端的算力远不如云端,其次核心算法放在本地有被竞争对手盗取机密的可能,所以我们不可能将所有的识别技术放在本地进行。

一般离线识别主要服务于常用简单的指令,例如“打开车窗”、“调节温度”等等,它们会通过正则表达式获取关键词,匹配指令后执行。

4. 语音交互支持免唤醒指令

部分语音技术供应商支持“免唤醒”技术,例如省略“Alexa”直接说“打开车窗”,车窗会直接打开。

其实“免唤醒”正是用了唤醒词技术,只不过把默认唤醒词改为指令,新的唤醒词被命中后会直接执行相关指令。

但是,我们不能把所有的指令设置为免唤醒,首先唤醒词识别有自己的局限性,不是所有的文字都能被正确识别,其次,越多的唤醒词意味着被误唤醒的几率越高。用户对其他乘客说打开车窗时,语音系统会误以为用户对自己发出的指令从而执行了相关操作。所以“免唤醒”要慎用。

5. 语音交互支持多模唤醒

语音交互唤醒方式除了常见的唤醒词和方向盘按键,姿态追踪和眼动追踪在未来有可能成为语音交互唤醒的新方式。

在人和人的交流过程中,当A转向并看着B时,B大概率知道A要发起交流,而且A也不会先说:“你好,B”,除非两者关系较差或者场景比较微妙。

在人机交流过程中应该满足以上场景,如果智能座舱中拥有一个实体机器人或者在屏幕里有较大面积能显示一个语音助手,我们可以通过用户头部姿态的转向和注视时长判断用户是否想和语音助手发起交流,用户也有可能向语音助手挥手,以上动作触发后语音助手应该激活并开始聆听。

有读者可能会问,为什么要做这么多方式来唤醒语音助手?

因为自然交互和多模交互有个特点就是要考虑冗余的设计,用户在不同场景下有可能采用不同的方式向语音助手发起交互,例如在上车场景时用户心情较好确实有可能向语音助手挥手Say Hi,如果语音助手没有任何动静,用户的心情有可能受到打击;还有另外一个例子是小孩的交流方式是多样的,语音助手应该有相应的配合。

眼动追踪在未来有可能成为一种唤醒方式,当用户看向哪个地方并发起语音交互时,这时用户眼睛看向的地方会成为语音指令中的主语,例如仪表盘上突然出现一个红色图标,用户有可能看着它直接问这是什么意思?这时语音助手可以做相应的解答。

二、聆听

1. 全双工语音交互成为主流

持续监听可以理解为一旦唤醒语音助手,语音助手会把麦克风一直打开。用户可以一直说,语音助手会针对用户每一句话分别作出响应。

但是持续监听的体验依然存在很多问题,因为麦克风一直打开,语音助手会把所有的声音进行聆听并做出响应。假设上一轮对话未结束,这时候语音助手听到其他人说的话,误以为这是新的语音任务,会把上一轮对话直接结束并播报新的内容。

还有些具备持续监听能力的语音助手一旦听到其他声音会立刻停止播报,这对用户来说无疑是一种断断续续的体验,效果可能比单轮交互、多轮交互还要差。

目前很多车厂已经宣称自己的车配备了全双工语音交互技术,相比简单地把麦克风打开,全双工语音交互不会像持续监听一样容易被噪音打断整个对话过程。要实现以上效果,全双工语音交互需要拥有更强的抗噪能力和上下文理解能力,它能理解每一句噪音是否跟当前任务有关,并且能猜测当前任务下一轮对话是什么,这对于技术的要求非常高。

全双工语音交互可以简单地理解为真正的“边听边说”,用户一旦习惯了全双工语音交互,就很难回到以上单轮交互、多轮交互和持续监听三种交互模式,因为它们都不是自然的交互方式。

2. ASR支持自动校正

笔者发现以前自己在手机地图使用语音输入,它会根据你的口音、地理位置和历史记录等因素进行ASR的校正,以及将ASR中出现一些同音字、二义性词以及用户发音不标准或者说错的字词进行校正。

百度地图、高德地图的手机地图做得好的原因是地图是用了自己的语音交互系统,以及十多年的地图数据积累,但是车载地图的语音交互系统有可能采用的是思必驰、科大讯飞等供应商,在ASR校正时缺乏地图数据的校验导致识别准确率较低,这个问题的解决需要多个供应商一起配合才能较好地解决。

3. 声纹识别在未来有一定作用

声纹识别在聆听过程中能有效区分不同人正在说的话,对于上下文理解有一定的帮助,而且根据应用场景为车内驾乘人员提供差别化服务,但目前有可能因为技术仍未成熟暂未看到有车企使用了声纹识别技术,在未来有一定的发展空间。

三、理解

1. 支持一句话包含多个任务的理解

这是一项体现语音交互高效率的重要特性。一般来说GUI完成一项任务需要分几个步骤,语音交互可以一句话就搞定,在导航场景下用户可以说“我想去广州机场,途中先去趟超市和充电站”,语音交互可以帮助用户一次性设置三项途经点,效率提升了不少。手机百度地图在几年前已率先支持该能力。

2. Shortcuts成为基础能力

iOS应用Shortcuts允许用户设置多个指令,然后命名为一条语音指令,用户只要对Siri说出这条语音指令就能把相关指令按顺序执行。小鹏汽车在2020年已经支持了Shortcuts功能。

3. VUI和GUI融合将成为系统底层设计

小鹏汽车在2020年发布的全场景语音交互正是将语音交互和GUI进行深度打通,它能有效实现语音交互直接控制GUI上的控件和组件,极大提升了驾驶员对于系统控制的效率。

四、播报

1. 让播报音色更拟人

当前大部分语音助手在播报时语气没有任何变化,而且音色机械感强,实现语音助手的拟人化播报将有效提升语音助手的情感表达。小鹏汽车在2021年7月份新推出的小P版本声称具备愉快、温和、亲热等14种强烈情绪的变换能力,而且在微软MOS(Mean Opinion Score)语音质量评测中获得了4.49的高分(满分为5分,分数越高越接近真实人声)。

音色自定义也是一个可见得着的趋势,2019年百度地图推出了地图语音定制产品,用户只需在百度地图App上录制20句话,20分钟左右即可生成个人完整语音包,21年亿咖通携手百度Apollo定制新一代智能座舱系统也包含了相关功能。

2. TTS个性化播报

除了音色可以提升情感表达,根据场景定制TTS文本也能有效提升语音助手的情感表达。

举个例子,语音助手和所有用户对话过程中都会用“你”字,“不好意思我听不懂你能再说一遍吗”、“请问有什么可以帮你的呢”……如果将“你”字改为名字和昵称,这时表达和用户的感受会发生新的变化,因为用户知道语音助手知道自己是谁,这有可能会加强用户对语音助手的信任感;第二说名字和昵称更能体现亲切感,就跟朋友聊天的时候不会天天用“你”字。

再举个例子,当用户上车时语音助手会根据不同的上车顺序和用户身份一一打招呼,例如“Hi,奶奶(年老的妇女,坐在后排左侧)、小明(驾驶员)、小红(小孩,坐在后排右侧)”,这比语音助手只跟驾驶员打招呼亲切得多,而且能体现出这个语音助手是智能且懂礼貌的。

以上例子看起来是在TTS文案上进行优化,背后其实采用了一系列空间信息、身份理解以及性别、年龄预测等技术。以上技术都已成熟,虽然这看起来使用了大量技术而且最后呈现的结果仅仅是文案的变化,但笔者认为它们对于语音助手的情感化和个性化有质的提升。

最后,除了语音交互,基于声音的创新也在不断发展当中。由于驾驶员在驾驶过程很难看到背后的事物,但听觉能接收并感知来自360°的信息,因此在不同位置播放音效能有效对驾驶员进行预警和提示,提升驾驶员的空间感知能力。

除了空间上的预警提醒,娱乐和体验也是智能座舱重点关注对象,7.1声道以及7.1.4声道音响能为乘客带来不一样的感官体验,因为声音可以在空间中流动起来,这时电动汽车可以在7.1声道的基础上重新设计引擎声浪系统,也可以配合主动式氛围灯做更多空间上的渲染。

专栏作家

薛志荣,微信公众号:薛志荣,人人都是产品经理专栏作家。畅销书《AI改变设计-人工智能时代的设计师生存手册》作者,全栈开发者,专注于交互设计和人工智能设计。

本文原创发布于人人都是产品经理。未经许可,禁止转载

题图来自 Unsplash,基于CC0协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。