惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

P
Privacy International News Feed
Martin Fowler
Martin Fowler
D
Docker
Y
Y Combinator Blog
云风的 BLOG
云风的 BLOG
U
Unit 42
T
Tailwind CSS Blog
J
Java Code Geeks
G
Google Developers Blog
MongoDB | Blog
MongoDB | Blog
阮一峰的网络日志
阮一峰的网络日志
WordPress大学
WordPress大学
月光博客
月光博客
大猫的无限游戏
大猫的无限游戏
美团技术团队
F
Fortinet All Blogs
N
News and Events Feed by Topic
Exploit-DB.com RSS Feed
Exploit-DB.com RSS Feed
Hacker News - Newest:
Hacker News - Newest: "LLM"
The GitHub Blog
The GitHub Blog
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
Recorded Future
Recorded Future
N
Netflix TechBlog - Medium
Google DeepMind News
Google DeepMind News
Hacker News: Ask HN
Hacker News: Ask HN
L
LINUX DO - 最新话题
Microsoft Security Blog
Microsoft Security Blog
N
News and Events Feed by Topic
I
Intezer
TaoSecurity Blog
TaoSecurity Blog
NISL@THU
NISL@THU
小众软件
小众软件
博客园 - 聂微东
博客园 - Franky
有赞技术团队
有赞技术团队
P
Palo Alto Networks Blog
爱范儿
爱范儿
H
Hacker News: Front Page
C
Cyber Attacks, Cyber Crime and Cyber Security
C
Cisco Blogs
P
Proofpoint News Feed
I
InfoQ
Google DeepMind News
Google DeepMind News
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
Vercel News
Vercel News
H
Heimdal Security Blog
C
Cybersecurity and Infrastructure Security Agency CISA
Application and Cybersecurity Blog
Application and Cybersecurity Blog
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
量子位

人人都是产品经理

为什么你的产品找不到差异化?90%的失败都卡在第一步上(下) – 人人都是产品经理, 3年从30万到1300万用户、获2200万美元融资,这个AI教育产品用“抽卡”破解了获客难题 – 人人都是产品经理, 园区招商系统怎么做才能真正帮到去化?我加了这一个功能,推广链接转发400次阅读过万 – 人人都是产品经理, AI大事件:OpenAI发完网络安全模型又搞药物研发,小鹏汽车要抓”DeepSeek时刻” – 人人都是产品经理, 电商不是卖货,是一场更残酷的产品经理实战 – 人人都是产品经理, 没想到,活动营销又回来了! – 人人都是产品经理, 为何All-in海外KOC:一场关于AI时代窗口期的豪赌 – 人人都是产品经理, 重新理解企业的内部协作 – 人人都是产品经理, 苹果的 AI 战略到底是什么? – 人人都是产品经理, 医疗智能体·第2讲——合规护城河:等保、PIPL与HIPAA的架构实战 – 人人都是产品经理, 向量知识库五步法:从“答非所问”到“精准回复” – 人人都是产品经理, 鸿蒙PC三方库构建总指挥HPKBUILD(sha)库为例 – 人人都是产品经理, 何时该用LLM?AI产品经理的LLM设计指南 – 人人都是产品经理, 医疗信息领域的需求方、决策方、准入方以及关注点(二) – 人人都是产品经理, 即梦涨价:一场被误读的「傲慢」 – 人人都是产品经理, 面试AI PM必答题:Hermes和OpenClaw的区别,如何讲清楚业务价值 – 人人都是产品经理, AI的下一张船票:世界模型——AI产品经理必须理解的技术拐点 – 人人都是产品经理, 小红书做GEO,怎么让AI信你?记住这 3 个重要信息 – 人人都是产品经理, 5 家印度 AI 初创公司,看看印度 AI 再做什么 – 人人都是产品经理, AI项目跨团队协作:产品技术业务如何不打架 – 人人都是产品经理, Agentic Workflow(智能体工作流):让AI从”答案生成器”变成”数字员工” – 人人都是产品经理, lycium_plusplus 项目全景解读:OpenHarmony 三方库构建的“大管家” – 人人都是产品经理, 从爆单救火到前置履约:两套预采策略,把生鲜大促履约效率拉满 – 人人都是产品经理, 什么时候该补货?我用一轮数据做了一个决定 – 人人都是产品经理, 从“机械兜底”到“动态分流”:AI客服重复进线治理的4大底层逻辑 – 人人都是产品经理, 抖音拼效率,红书拼洞察 – 人人都是产品经理, 全民狂欢与退潮——为什么龙虾这波热潮冷却得如此之快? – 人人都是产品经理, Stripe押注!MPP重塑全球支付 – 人人都是产品经理, 小红书GEO:AI引用你的内容,不是因为你对,而是因为你看起来可信 – 人人都是产品经理, 前百度副总裁押注办公Agent,日韩付费爆发,Manus迎来强劲对手 – 人人都是产品经理, 企事业单位数字化的业务供需本质 – 人人都是产品经理, 医疗智能体·第1讲——医疗信息化重构:从“辅助软件”到“自主智能体”的范式转移 – 人人都是产品经理, 粉丝量就是空气!!! – 人人都是产品经理, 用户说“薯片碎了”,机器回“要买吗?”:意图识别的翻车与破局 – 人人都是产品经理, RAG召回准确率从75到90 我做对了这三件事 – 人人都是产品经理, AI大事件:Anthropic改收费、OpenAI发安全版、手术机器人纳入医保、阿里发布”秒悟” – 人人都是产品经理, Chrome 推出 Skills 新功能,Agent 重塑上网方式 – 人人都是产品经理, GitHub前创始人拿了a16z的1700万美元,做Agent时代的Git – 人人都是产品经理 拷贝或克隆其他 Flutter OH 项目到本地后无法运行 – 人人都是产品经理, 优惠券设计:优惠券创建 – 人人都是产品经理, 不用死磕文档!AI 助手 1 小时搞定飞书 CLI 安装 + 配置 + 知识库 – 人人都是产品经理, 用小龙虾做竞品分析报告:从2天到20分钟,我是怎么做到的 – 人人都是产品经理 用小龙虾做市场分析报告:搞懂这3个公式,市场规模不再靠猜 – 人人都是产品经理, 你早就在做 Harness 工程,只是不知道它叫这个名字 – 人人都是产品经理, Think Long就够?你可能想多了! – 人人都是产品经理, 货代SRM实战:供应商准入怎么做,才能让资源池不是通讯录而是可交付网络? – 人人都是产品经理, 如何做好用户调研?详解基本技巧 – 人人都是产品经理, 木鸟、途家、美团对打,平台春天行动开“卷” – 人人都是产品经理, 入职才发现公司不靠谱?小红书从业者求职避坑指南 – 人人都是产品经理, 美国 AI 三巨头联手封堵,中国 AI 突围之路在何方 – 人人都是产品经理, 小红书,放在需求对面的镜子 – 人人都是产品经理, AI 会带来大规模失业吗? – 人人都是产品经理, 从出单到补货前,我第一次犹豫:该不该放大? – 人人都是产品经理, Flutter 三方库鸿蒙化适配:5 种高效检查方式,快速判断是否需要适配 – 人人都是产品经理, 从做产品进阶拿结果:医美机构产品经理转岗科室运营经理 – 人人都是产品经理, 阿里HappyHorse,一场关于“Token经济”的阳谋 – 人人都是产品经理, To B AI:客户留存落地的观察与思考 – 人人都是产品经理, AI产品的“生命线”——数据采集、标注、清洗的产品化设计 – 人人都是产品经理, 谈谈AI Agent(二):当“孩子”能自己“体验世界”时,你该学什么? – 人人都是产品经理, UI/UX设计师的3层能力进阶,前两层让你活下来,第三层…才是真正的分水岭 – 人人都是产品经理, 2分钟 → 30秒,效率提升75%:B端产品经理如何用「规则枷锁」驯服AI幻觉? – 人人都是产品经理, 还没来得及学OpenClaw,来了个更猛的:Hermes Agent – 人人都是产品经理, AI日报:宇树机器人跑出10m/s刷新世界纪录 – 人人都是产品经理, 一文说透基金互金如何用情绪价值引导用户决策做转化 – 人人都是产品经理, 当浏览器开始替你”看”网页:AI 浏览器正在亲手拆掉它脚下的那张网 – 人人都是产品经理, 0代码,一天时间我Vibe Coding了个网站 – 人人都是产品经理, Hermes 和 OpenClaw 之争,Agent 的能力应该“装上去”还是“长出来”? – 人人都是产品经理 视频生成的“桌子”,字节Seedance 2掀完,阿里快乐马掀 – 人人都是产品经理, 从听不懂到完全信任:我的 Codex 深度产品体验 – 人人都是产品经理, 当虚拟偶像有了北京户口,与真人偶像还有什么区别? – 人人都是产品经理, 会说,远远比会做更重要 —— 对 SBTI 爆火现象的五层观察 – 人人都是产品经理, AI产品经理必看:当“搭环境”比“选模型”更重要,你的认知还在2024年吗? – 人人都是产品经理, 2026年AI产品商业化核心逻辑:从功能demo到规模化营收的3个必破卡点 – 人人都是产品经理, 京东围绕供应链,卷起裤腿下场的那些事儿 – 人人都是产品经理, SBTI一夜刷屏:它赢在了“太会说人话” – 人人都是产品经理, 折扣零售的真相:不是便宜,而是价值感! – 人人都是产品经理, 和甲方吵了一架,最后加钱做了——我学到的ToB产品经理生存法则 – 人人都是产品经理, 和几位小红书操盘手聊了8小时,干货全在这 – 人人都是产品经理, 智谱GLM-5.1登场,开源模型首超Opus4.6!!! – 人人都是产品经理 Anthropic收入凭什么反超OpenAI,终于有人把这事说清楚了 – 人人都是产品经理, 史上最有故事感的技术报告——Claude最强模型Mythos 7个极其精彩的细节 – 人人都是产品经理, 模型不是壁垒,Harness 也不是 – 人人都是产品经理, 抖音本地生活业务思考21 – 人人都是产品经理, Superpowers:145k Star的AI编码框架,到底是什么来头? Superpowers:145k Star的AI编码框架,到底是什么来头? – 人人都是产品经理, OpenAI 的路走错了,Anthropic Harness 解法启示:模型需要实践专科生 – 人人都是产品经理, 画原型图的前一步:设计站点地图 – 人人都是产品经理, 给 DeepSeek 的最后一封催更信 – 人人都是产品经理, 手把手教你用 Claude Code 搭建 AI 营销团队:5 个 Agent、12 项技能,独立完成研究、写作、设计全流程 – 人人都是产品经理, 你以为大模型在学语言?不,它在重新发明语言学 – 人人都是产品经理 所谓Skill,不过是AI时代的工业垃圾 – 人人都是产品经理, 聊一聊内容传播的几个方法 – 人人都是产品经理, 当平台开始吃掉生态:从 OpenClaw 被封杀,读懂 Anthropic 的这盘棋 – 人人都是产品经理, 你装了 10 个 AI 插件,Obsidian 还是一个文件夹 – 人人都是产品经理 关于AI智能体架构演进的系统性思考:从单体试水到多体协同的重构 – 人人都是产品经理, 当“人”变成Skill,我们又该何去何从? – 人人都是产品经理 Mythos 事件:前沿 AI 治理的意外实验 – 人人都是产品经理, 货代CRM:信用与风险管理怎么做,才能把坏账风险拦在放货之前? – 人人都是产品经理, 从HR收集自拍照到员工自助录入——我见证了园区人脸识别从”不可用”到”真好用”的全过程 – 人人都是产品经理 千问闯关AI混沌期:阿里画靶,吴嘉张弓,马云射箭? – 人人都是产品经理,
用AI加强产品设计·识别篇——如何利用文字识别(OCR)、语音识别(ASR)和机器翻译(NMT)提升用户体验
王也弱 · 2023-02-12 · via 人人都是产品经理

作为一名产品经理,超自然地满足用户需求,用户体验就会更好。在日常中,大家很难将自己看不懂的文字或者不同APP的一些信息直接转化到这个APP中,这时候使用一点AI是我们的最佳选择。本文带你快速地了解到如何应用AI到你的产品里,希望对你有所帮助。

作为一个产品经理,让我们负责的产品成功的关键在于场景、需求和痛点——越自然地满足用户的需求,用户的体验就会越好。

比如我们看看这几个例子——

  • 在快递、闪送这个场景下,用户的收件人地址信息通常在另外一个App里,想要有时甚至复制和粘贴都做不到。是否能对收件人的姓名、地址这些信息进行截图、识别、智能填写?至少我们需要把这个截图里的文字识别出来。
  • 在旅游的过程中,用户如何快速看懂身边的文字?有时用户不只是看不懂——大概率连输入都做不到(日语的假名、泰语的文字),至少我们要先把它转成文字,然后再进行翻译,对吧?

为了解决这些痛点问题,人工智能(AI)能力很有可能是你最佳的选择,而做一个“懂一点AI”的产品经理很可能在这个新的时代里是PM的必备技能。在这篇博客里,我们会探索三种特定的人工智能功能——图像文本识别(OCR)、语音识别(ASR)和机器翻译——以及如何应用它们来增强我们的产品并为用户提供价值。

当然,值得注意的是,还有很多其它的AI能力,在日后的文章中我们会一一介绍。在这篇博客中,我会只关注这些和文字、识别和快速理解相关的三个能力,而这三个作为整个AI世界里最容易理解的基础能力,能快速地带你了解到如何应用AI到你的产品里。

目录:

  1. I. 图像文字识别(OCR)
  2. II. 语音识别 (ASR)
  3. III. 机器翻译
  4. IV. 总结
  5. V. 一些额外的阅读建议

一、图像文字识别 (OCR)

很多人应该都有这样的困扰,比如在逛淘宝的时候,想要去搜索详情页的大图里的文字简直难于上青天,因为图片里的文字是没法复制的。一些不太懂一些“歪门斜道技术”的人也很难破解那些“禁止右键”或“禁止复制”的破网站的限制,拿到想要的文字。有时你也可能需要从截图里获取文字,或者快速扫描手头的文档、电子化课堂里的板书。 这些场景正是OCR的用武之地。OCR是Optical Character Recognition(光学字符识别)的缩写,更多的我们会叫它“文字识别”或者“图像文字识别)。在现在的手机App里很容易找到OCR的身影,如微信最近的更新使得你可以在聊天记录中搜索文字,会找到提到这个文字的图片;iOS的实况文本功能可以在输入框中快速录入现实生活中的文字等等。

OCR是一种让计算机能识别和提取图像中的文字的AI技术。它的工作原理(简化到六岁小孩能理解的难度的话)可以认为是AI通过研究各种图片里文字的形状和模式,学会了在图片里“找文字”并把每个文字与已知的字符去匹配,最后告诉你“字在哪”和“这些字是什么”的技术(当然这个解释非常地不科学,你就将就看吧)。有了这个技术,再加上一些非常简单的交互和UI就可以做到根据需要去编辑、搜索或存储你提取的文本了。

如引入部分提到的,OCR的一个常见用例是在快递行业。在填写收件人信息时,用户通常会截取表单的截图并提取文本以便快速填写。OCR使这个过程更快更有效,因为用户不必手动输入所有的信息。而且在截图场景下,像手机号的识别准确率会非常非常高。

OCR还可用于各种其他行业,如医疗保健、金融和教育。例如,OCR可用于从医疗记录、财务文档和学生成绩单中提取和组织信息。在一些特殊的模版下,OCR能力结合一些图像处理的技术,也可以把一些固定格式的内容快速提取出来,形成结构化的信息并录入到数据库中;当结合一些自然语言处理(NLP)技术时,也可以做到一些非结构化的信息提取。

然而,在使用OCR时还是会有一些需要考虑的问题的。其中一个挑战是,你想让OCR识别得准,你的图片就得很高清优质。如果图像模糊或扭曲,OCR可能就没办法很准确地识别了。有一个比较容易理解的评估方式就是,如果人能轻松认出这个字是什么,机器的准确率通常会很高;但如果人需要费很大的劲,甚至需要结合上下文去猜测,那么机器一般就不是很能准确地进行识别。

另外,像一些潦草的手写,用通用的OCR有时也会识别困难。当然,通用的AI能力在特殊的场景下,一般比不过对这个场景做专门优化的能力。比如在有道智云这个AI开放平台里,通用文字识别、手写文字识别和公式识别是三个不同的接口。比如在教育场景下的公式识别,可以识别出LaTeX格式的公式,让在客户端渲染公式时更轻松容易。在我们的产品中如果有相应的场景,可以去接入试试看。

二、语音识别 (ASR)

语音识别,或者说ASR(Automatic Speech Recognition,自动语音识别),则是让计算机听懂“语音”的技术。它能将语音转换为文本,使用户无需打字就能更方便地输入信息或发出命令。

ASR通常用于智能语音助手,如Siri和小爱同学,以及各种叫“转录”或“听写”的软件。还是拿微信举例子,微信的语音转文字就是一个非常典型的ASR能力的例子,没有它你可能每天都被(你讨厌的)某些朋友进行60s轰炸。其它的例子比如如语音输入法、语音导航等等。它还可以用于各种行业,包括客户服务、教育、音视频行业等等。

例如,在客户服务行业,ASR可用于创建交互式语音应答(IVR)系统,让用户可以用语音就和“外呼机器人”对线。当然更早期还没有现在这么智能的机器人,早期其实是做一些简单的“回答”就可以让用户找到他们需要的信息,有效减少了(某些公司——合理怀疑——根本就不存在的)人工客服。在教育行业,ASR应用还是很广泛的,比如在线课程的字幕识别、学生的课文背诵和语音问答等等。最新的B站也终于加了“字幕自动识别”,结合后文的机器翻译就可以快速理解原本不懂的外文影片了。

在产品里集成ASR的好处可太多了。主要的原因其实就是它能解放双手,不需要再去打字,这样无论是输入速度还是精确性都会提高不少,产品的可用性也会有提升。

和所有其它AI能力一样,在使用语音识别能力的时候,要特别注意使用场景,同时也会搭配一些额外的能力使用。如实时交流的过程中,需要加入VAD能力来判断用户的一段话是否已经说完(在有道智云这些能力都已经集成进了接口中),同时对时延的要求非常高,通常要求时延在200ms以内。相对的,在长语音文件转写的场景里,用户等待的时间就可以适当放宽,在产品设计上可以批量提交后系统转写再通知用户完成(异步处理)。一般来说,一个商用的ASR系统的加速比一般是在1:30、1:50甚至更高,即半小时的音频,在一分钟就可以转写完毕,大家可以在产品设计的过程中参考这一数字。

然而,在使用ASR时也有一些问题需要考虑。其中一个挑战是,这项技术可能并不总是能准确识别不同的口音或方言。此外,背景噪声会干扰ASR过程的准确性。当然,和OCR一样,如有道智云这种面向开发者的AI平台一方面会充分考虑通用性,在系统内部进行了对噪声的处理,同时兼容不同的方言和口音,有必要的时候还可以考虑通过声纹识别等新的技术进行优化,另一方面如果有特殊的需求(如对某种特定方言的准确识别),也可以和他们的商务联系来获得更积极的支持和优化。

三、机器翻译

机器翻译是一种让计算机将文本内容从一种语言转换成另一种语言的技术。它可以用来实时翻译网站、文档,甚至是对话。

机器翻译适用于各种行业和场合。例如,在社交相关的产品上,跨语种的交流总是会有语言障碍。加入了机器翻译后,跨语种的交流就成为了可能。同时像产品描述或客户服务查询这种官方提供的文档,也可以在低成本的条件下可以轻易拓展更多国家的用户群。同时,翻译能力可以让我们的产品更容易为说不同语言的人所接受,从而使我们能够接触到更广泛的受众,也可以提高沟通的效率和信息传递的速度。

和上文我们提到的OCR、ASR能力结合在一起,会起到更奇妙的化学反应。

当输入是图片时,可以进行图片翻译,这种翻译方式除了结合了OCR、机器翻译外,还使用了多种新技术(如对抗生成网络、篇章语义理解等等),使得不仅能让用户快速理解图片中的文字,甚至可以把文字直接绘制在背景上,就好像原本照片上就是目标语种的文字一样,这样能大大降低用户的理解难度。

而当输入是语音时,又有一些新的玩法。比如可以实时地进行会议场景下的字幕翻译,还可以和一些其它的语音技术相融合。比如可以直接把翻译后的内容读出来(TTS技术),甚至可以用你自己的声音读出来(声音复刻的PR稿,链接)。

当输入是PDF这类文档时,由于文档有可能是图片格式、有可能是文字格式,需要配合针对性的解析服务(pdf转word)来使用。有道智云也提供了“文档翻译”这样的能力(可以公有云接入,也可以私有化部署),直接上传pdf、excel、ppt等格式的文档,就可以下载对应的译文。

然而,在使用机器翻译时,也有一些需要考虑的问题。翻译的质量不一定在任何情况下都很好,特别是对于那些更复杂或有很多习语和文化参考的语言。 在这种情况下,有可能需要一些术语库(链接)甚至是专业领域模型的支持。比如有道智云提供了医学、金融、计算机等多个领域的专有领域模型。 此外,机器翻译过程有时会改变原文的语气或意图。比如日语中的敬体、敬语,在和中文互译时,受限于语言本身的差异,有时就会丢失掉原本听话人的感受(比如中文很难表述出日本人花样繁多的敬语之间的细微差异)。当然,随着技术的发展,这些问题也在慢慢地解决中

四、总结

在这篇博客文章中,我们探讨了如何将图像文本识别(OCR)、语音识别(ASR)和机器翻译应用于识别信息并为不同行业的用户解决他们的痛点。作为产品经理,重要的是在了解这些AI能力之后,考虑这些技术如何提高产品的价值和吸引力。有了像有道智云(链接)这样的AI开放平台,将这些AI功能集成到产品中是很容易的。他们提供了所需的基础设施和算法,因此你就可以专注于改善用户体验并为客户解决挑战。

如果你有兴趣将这些AI功能集成到你的产品中,接下来你可以采取以下几个步骤:

  • 研究各种可用的人工智能功能,并确定哪些功能最相关,对你的产品和用户最有益。
  • 探索像有道智云这样的AI PaaS平台,他们可以提供将这些技术轻松集成到你的产品所需的基础设施和算法。
  • 考虑在集成AI能力时一些潜在挑战和限制,并相应地制定计划,通过产品设计规避他们,甚至把它变成产品的亮点。
  • 测试和迭代以确保你实现的AI功能能够为用户增加价值并解决挑战。

不要让集成AI的“难度”成为了阻止你成为一个AI时代的产品经理的问题,当然,更容易的方法是直接联系他们平台的商务(链接)人员,获取更加直接的支持。

本文由@王也弱 原创发布于人人都是产品经理,未经许可,禁止转载

题图来自 Unsplash, 基于 CC0 协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。