惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

小众软件
小众软件
N
News and Events Feed by Topic
A
About on SuperTechFans
aimingoo的专栏
aimingoo的专栏
The Cloudflare Blog
H
Heimdal Security Blog
Schneier on Security
Schneier on Security
Engineering at Meta
Engineering at Meta
Google Online Security Blog
Google Online Security Blog
宝玉的分享
宝玉的分享
AI
AI
The GitHub Blog
The GitHub Blog
MongoDB | Blog
MongoDB | Blog
www.infosecurity-magazine.com
www.infosecurity-magazine.com
The Last Watchdog
The Last Watchdog
T
Troy Hunt's Blog
S
Security @ Cisco Blogs
H
Hacker News: Front Page
F
Fortinet All Blogs
博客园_首页
S
Secure Thoughts
N
News and Events Feed by Topic
P
Proofpoint News Feed
Microsoft Azure Blog
Microsoft Azure Blog
I
InfoQ
Spread Privacy
Spread Privacy
Hacker News - Newest:
Hacker News - Newest: "LLM"
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
C
Check Point Blog
Hugging Face - Blog
Hugging Face - Blog
Hacker News: Ask HN
Hacker News: Ask HN
C
CXSECURITY Database RSS Feed - CXSecurity.com
酷 壳 – CoolShell
酷 壳 – CoolShell
Stack Overflow Blog
Stack Overflow Blog
L
LINUX DO - 最新话题
Exploit-DB.com RSS Feed
Exploit-DB.com RSS Feed
S
Schneier on Security
Know Your Adversary
Know Your Adversary
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
Scott Helme
Scott Helme
P
Privacy & Cybersecurity Law Blog
S
Securelist
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
O
OpenAI News
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
PCI Perspectives
PCI Perspectives
L
LangChain Blog
雷峰网
雷峰网
Security Archives - TechRepublic
Security Archives - TechRepublic
V2EX - 技术
V2EX - 技术

少数派

派早报:Google 发布 Fitbit Air 等 - 少数派 「新人报到」確認需求,再開始 - 少数派 从 SOLO 独立开发者社区,我看到了越来越多开发者开始做自己的产品 - 少数派 我怎么管理那些"不常做,但总会忘"的生活事项 - 少数派 人形机器人量产元年,数据才是具身智能的“生死线” - 少数派 BuhoLaunchpad 高度还原 Mac 启动台:开发历程与思考 - 少数派 五年陪伴依然不舍,DIY 换壳后让罗技 MX Master 3 继续服役 - 少数派 新玩意 240|少数派的编辑们最近买了啥? - 少数派 一日一技|为什么你应该关闭 iOS 的键盘声音 - 少数派 我做了个插件和 Skills,一键提取任何网站的设计规范 Design.md - 少数派 住在三四线城市的你,该开始录播客了 - 少数派 甘南秘境,大白高国 - 少数派 AI的审美:谁让把我变成川内倫子 - 少数派 返工怎能不烦恼,打工人片单总有一部是你的「嘴替」 - 少数派 为了让「上厕所」更健康,我做了一个小工具 - 少数派 AI + Skill,能够让生成的文章去除 AI 味吗? - 少数派 新玩意|韶音OpenDots ONE 耳夹式耳机 - 少数派 《美满》| 在每一个春天的晚上相爱(362) - 少数派 新玩意|优篮子 PS01 MagSnap 磁吸支架 - 少数派 自我整合手记 | 我开始早睡了:用稳定规则,为自由托底 - 少数派 用龙虾(OpenClaw)两个多月,我最深的12个体会 - 少数派 听歌时间到,12 张你可能错过的 2025 华语乐坛好专辑 - 少数派 承诺能追吗 - 少数派 macOS 26启动台没了? 我做了个不一样的App启动器 - Keboard - 少数派 《四海为家的人》| INTJ对话INTJ(361) - 少数派 你发过的那些黑历史,是时候一次清干净了 - 少数派 新玩意:安安静静玩,越玩越专注:计客密码机 - 少数派 iPad 用户首次体验 Android 平板:vivo Pad6 Pro - 少数派 数据逻辑强 - 少数派 极北行+ | 一路向北,探访日本至北之地 | 001 - 少数派 万字剖析:千问App深度体验报告(2026) - 少数派 在2026年,如何真正防止别人抄袭你的作品 - 少数派 怎么用 50 块搭个 AI 语音助手?我踩了 3 天坑 - 少数派 YeeroAI:让 AI 对话真正成为知识管理的一部分 - 少数派 爬泰山 - 少数派 「旅图显影」 App 更新:这次,我们补上了一点「手感」 - 少数派 假期出门太折磨?我的 23 条经验帮你规划惬意旅行 - 少数派 工作流会变吗 - 少数派 Claude Opus 4.6 怎么用最省钱?我测了 5 种方案 - 少数派 GPT Image 2 让图文并茂不再稀罕 - 少数派 用户侧出发——什么是AI,我要不要学习? - 少数派 找片、转存、整理、播放一条龙!让你的付费网盘值回票价 - 少数派 欢迎试用!日课一问2.0插件 - 少数派 自己做的MDeditor,原本想购买 Typora 试了两次支付不成功,干脆自己做一个 - 少数派 vibe coding了一个 3MB 的小工具,让 ~/Downloads 彻底告别混乱 - 少数派 因为受不了 Mac 的风扇策略,我做了一个风扇控制工具 - 少数派 别只怪模型 - 少数派 Warp 终端的 AI 功能怎么用?我测了一周的体验 - 少数派 AI 写代码老是出 bug?这 5 个配置我后悔没早知道 - 少数派 「新玩意」苹果出相机可能就这样:Sigma BF + 45mm F2.8 DG Contemporary - 少数派 一个面向2030年的AI操作系统是什么样子的:浅谈cola这款有灵魂的Agent - 少数派 别只看写代码 - 少数派 每天解决10个问题,还是一口气攻坚解决400个? - 少数派 AI 交易机器人怎么搭?我用 Claude 跑了一周实盘 - 少数派 Maptoposter Online:把你爱的城市画成艺术海报 - 少数派 Function Calling 怎么用?我测了 3 个模型发现差距真大 - 少数派 Legend Talk:我做了个 AI 圆桌,让 160 位思想家围着你的问题转 - 少数派 如何找到自己的蓝方?在小县城寻找压力测试 - 少数派 语音输入与软件接口|2026年聊AI时,我们都聊些什么(上) - 少数派 混动已经卖爆,纯电又来补刀——钛7闪充版简直“不讲武德” - 少数派 本月玩什么|朋友收藏、识质存在、沙罗周期 - 少数派 为什么要每天坚持输出? - 少数派 Claude API 挂了好几个小时,你的项目有备用方案吗? - 少数派 Function Calling 没你想的复杂——我用它做了个有点用的工具 - 少数派 登录系统立即播放视频或者图片音乐的软件 - 少数派 我为什么创建 FlipHTML5 下载工具 - 少数派 残局没电?多品牌外设电量统一管理软件EasyBluetooth已支持RTSS游戏内显示以及AIDA64 - 少数派 前往通义路的路 - 少数派 太好看了,媲美Sun的个人导航页,NAS部署星云门户 - 少数派 乌黑嘴唇“一键检测”上线了 - 少数派 派早报:Claude AI 接入多个创意软件生态、FILCO 生产方接手品牌等 - 少数派 【更新】BearCLI、Claude 连接器与 MCP 服务器 - 少数派 记了上千条流水,还是看不懂财务?我做了一个让 AI 读懂账本的工作台 - 少数派 MINI R56 升级原厂 Sport 模式 - 少数派 新玩意 | 一棵柠檬树(仿真版) - 少数派 Momenta的“物理AI”野望,需迈过“含摩量”这道关 - 少数派 网页直接投屏控制手机!NAS一键部署PandaScrcpy,流畅丝滑可远程。 - 少数派 众测|邀你一同探索随身 AI 硬件入口 YoooClaw C·ONE - 少数派 2050大会:分享时间是真诚 参会记 - 少数派 iPad 赋能电影创作:国内首部宣纸手绘长片《燃比娃》的幕后故事 - 少数派 AI的审美:我用 8 个大模型给 100 张旅行照片打分 - 少数派 普通人如何破圈?去参加一个本地协会 - 少数派 把极空间的图标全换了,主题DIY全攻略打造你的专属NAS桌面 - 少数派 电子便签墙,帮你实现便签自由 - 少数派 我如何用三个 CLI 工具取代文档创建需求 - 少数派 原来真的有人可以玩一辈子 - 少数派 社区速递 139 | 派友热议三月买了啥、复古单反尼康 Df 体验 - 少数派 06 作品的赏析与评价 - 少数派 TDS REVIEW|索尼 WF-1000XM6 降噪真无线耳机体验 - 少数派 35.98万起售的第二代腾势D9,我看重的不是堆料,而是不凑合 - 少数派 鼠须管 Squirrel 皮肤配置指北 - 少数派 从watch ultra2换到redmi watch6 - 少数派 派早报:阿里巴巴发布视频生成模型 HappyHorse 1.0 等 - 少数派 别迷信1M - 少数派 家人们天塌了!网盘“大封杀”,多个渠道多条路,NAS部署PanHub - 少数派 AI与人勾心斗角!NAS一键部署AI狼人杀,假日休闲必备。 - 少数派 电商必备!Comfyui工作流批量生图插件,一次生成12张!支持Nano banana pro模型 - 少数派 Comfyui工作流配置Gpt-image-2模型教程,0.03/张 - 少数派 OpenClaw第三方APi怎么配置?可使用Gpt-image-2模型 - 少数派 会员社区话题精选 Ep. 103 - 少数派
“人手一个贾维斯”的愿望,正在被“视频通话”功能带进现实 - 少数派
2024-08-30 · via 少数派

2011年的iPhone 4s发布会上,Siri以智能语音助手的身份初次亮相,成为整场发布会上最大的亮点。

当时许多人还未曾体验过Siri的服务,但从媒体报道中建立了一个朴实的愿望:就像《钢铁侠》中的贾维斯一样,每个人都将拥有自己的智能助手,可以实时沟通,帮助我们解决各种问题。

即使Siri后来“跌落神坛”,人们对于“贾维斯”的期望始终没有抹灭。AlphaGo、智能音箱、大模型……每一次现象级的创新背后,总有人在讨论:《钢铁侠》中的贾维斯,离我们的生活还有多远?

2024年大概率是愿望成真的一年。

7月末,OpenAI宣布向部分付费用户开放GPT-4o的视频通话版本,能够即时与GPT进行视频交互问答,通过摄像头识别画面,在线解答各种问题,比如实时翻译、解线性方程题等。

8月29日,智谱AI官宣智谱清言APP上线“视频通话”功能,成为首个可以通过文本、音频、图像和视频来进行多模态互动和实时推理的AI助手。目前已经向部分用户开放,并且开放了外部申请权限,将持续迭代并逐步放开规模。

由此产生的一个话题是:为什么头部的大模型厂商都在死磕“视频通话”功能,对用户体验有什么影响,“人手一个贾维斯”的愿望能否照进现实?

01 解锁AI新体验

大模型引发的新一轮技术热潮已经持续了近两年时间,市场上出现了形形色色的AI助手,人机交互却被“束缚”在了对话框中,停留在文本输入的阶段。某些产品推出了语音对话功能,但较高的延迟导致体验不佳,而且无法理解语调起伏、笑声等表达的情感信息,仅仅是用语音替代文本输入。

我们提前一天体验到了智谱清言APP的“视频通话”功能,在内测群里和其他进行了简单交流,发现了一些有趣的应用场景:

第一个场景是作业辅导。

不同于OpenAI发布会上演示的简单方程组解答,有群友直接将智谱清言用于孩子的作业辅导:

比如小学数学的互余角计算,智谱清言迅速理解了视频中题目的语义,并将问题进行了拆解,一步步引导孩子去计算,当孩子给出正确的答案后,智谱清言还在第一时间给出了“太棒了”的鼓励。

而在英语教学的场景中,孩子用笔在纸上圈出了某个单词,智谱清言精准识别到了圈住的词汇,并给出了正确的发音,甚至在孩子的朗读出现错误时,“耐心”地进行了读音矫正,就像是一个坐在孩子身边的“英语老师”。

第二个场景是产品介绍。

有时买到的商品是英文包装,可能看不懂使用说明和注意事项,是否可以用“视频通话”功能填补信息差呢?

我们将摄像头对准了星巴克买来的一款咖啡豆,因为存在折痕,一些英文字母出现了变形,但智谱清言依然准确识别出了商品信息,包括产品名称、配料、产地、风味、品牌等基础内容。

接下来询问了咖啡豆的制作和储存建议,即便是远远超出视频画面中的信息,智谱清言同样给出了确切的答案:做美式超合适,味道正好;保存咖啡豆要放在阴凉干燥的地方,避免受潮或晒太阳......

第三个场景是厨房助手。

因为每天中午都面临“吃什么”的烦恼,于是萌生了一个想法:让智谱清言识别菜品,并给出建议的菜谱和制作方法。

我们同时将白菜、干辣椒、大蒜和生姜放在案板上,然后询问都要哪些食材,可以用来做什么菜。没想到的是,智谱清言准确说出了每一种食材的种类,并给出了辣椒炒白菜的建议。

进一步询问应该怎么做,智谱清言详细给出了锅热加油、姜蒜炒香、加入红辣椒、香味出来后放切好的白菜等一整套流程。而当我们进一步询问“做醋溜白菜还需要哪些食材”时,智谱清言的答案再次让人惊艳:“做醋溜白菜的话,还需要点醋和糖”。

可以看到,上面的几个“小儿戏”并不能难倒智谱清言,比答案更重要的其实是整个问答的过程:不仅能够准确识别摄像头拍摄到的内容,听懂语音指令并准确执行,即使打断它也能迅速给出反应。相较于机械式的一问一答,在体验上越来越接近人与人的自然交流。

02 到底难在哪里

对智谱清言APP的“视频通话”功能做个总结的话,主要解决了三个痛点:

1、新的信息输入模式,不再局限于文字和语音,而是文本、图像、音频和视频等多个模态,AI可以自己“看世界”了;

2、新的对话交流模式,过去的对话交流大多是一问一答式的,合理但不符合真实习惯,现在已经可以做到“随时打断”;

3、新的人机交互场景,简单高于一切,视频和语音带来了近乎零门槛的用户教育,意味着人机交互可能迎来革命性更新。

上面提到的情景,曾不只一次出现在科幻电影中。除了前面提到的《钢铁侠》,《流浪地球》《Her》《银翼杀手2047》等电影中都有类似的桥段。因为最符合人类习惯的交互,从来都不是键盘,而是对话。

要实现“视频通话”功能,到底难在哪里呢?就大模型而言,必须要满足两个方面的能力要求。

首先是多模态能力。

简单来说,模态就是信息输入和输出的表现形式,包括文字、图像、语音、视频等等。为什么多模态能力重要呢?因为人类认识世界的方式本身就是多模态,眼睛、耳朵、嘴巴、手脚等承载了不同的信息感知,AI想要替代人类的工作,帮助人类学习、认识和理解这个世界,前提正是多模态数据处理能力。

其次是模型推理速度。

人类对话的普遍间隔时间是250毫秒,偏离这个间隔越久,交互就越“不自然”,体验也就越“不爽”。目前大模型存在的问题在于:推理时长往往在3秒以上,直接影响了用户体验和业务效率。OpenAI曾公开GPT-4o的语音延迟数据,平均为 320 毫秒,智谱AI尚未公布详细数字,但实际体验和GPT-4o相当。

也就是说,大模型的竞争就是一场开卷考试,追求的目标一致,且路径逐渐清晰,比拼的其实是技术硬实力。

以智谱清言为例,之所以成为国内首个面向C端开放“视频通话”功能的产品,离不开两个核心优势:

一个是时间上的先发优势。早在2021年3月,智谱AI团队就推出了GLM系列大模型,2021年5月推出了推出了将中文文字生成图像的文生图模型CogView,2022年在CogView2的基础上研发了视频生成模型CogVideo……超过国内同行近两个的时间优势,让智谱AI在多模态能力上有着更深的沉淀。

另一个是能力上的领先优势。比如智谱AI联合清华KEG潜心打磨的CogVLM-17B,在多个数据集上获得了SOTA或第二名的成绩;新推出的GLM-4V-Plus,在MVBench、LVBench、OCRBench、MMVET等多个基准测试中的表现超过GPT-4o和Gemini 1.5Pro,达到国际先进水平。

03 “盛宴”刚刚开始

也许在一些人眼中,“视频通话”不过是一项寻常的功能创新,放诸到商业语境里,却有着不可小觑的作用。和每一次风口出现时一样,大模型的概念刚走红时,创业者们一窝蜂地涌入,试图在新一轮的创业潮中搏一个机会。可直到现在,市场上还没有跑出一款真正意义上的杀手级产品。

不少人将ChatGPT的走红视作“AI的iPhone时刻”,可初代iPhone的销量只有700万台,并未改写诺基亚统治市场的格局;让无数开发者从中获利的App Store,则要追溯到2008年发布的iPhone 3G。

初代iPhone的“历史价值”,其实是电容屏和多点触控。

诺基亚和摩托罗拉也曾推出多“大屏”手机,但采用的是电阻屏,需要用触控笔才能操作,导致使用门槛高且场景有限。相比之下,多点触控的电容屏允许用户直接用手指操作、输入和互动,极大地降低了用户的学习成本,赋予了开发者更大的想象空间,进而才有了移动互联网的繁荣。

沿循这样的逻辑,“对话框”就像是电阻屏,“视频通话”功能让大模型的人机交互进化到了电容屏时代。

个中差别并不难解释。

作为一个深度使用大模型能力的普通用户,之前我们的需求主要集中在文本生成、图像生成和视频生成,比如让AI写简单的视频脚本、生成文章配图和视频素材,核心场景并未脱离“工作”的范畴。

体验了智谱清言的“视频通话”功能后,我们深切地感受到:多模态能力和毫秒级的推理速度,在生活中有着无处不在的应用场景,比如出国旅游时打开摄像头将餐厅的菜单翻译成中文、工作面试前让AI扮演面试官提前模拟面试、早上出门时打开视频询问今天的穿着怎么样、吃零食前先让AI识别计算卡路里……对应的生活场景不可计数。

对于开发者而言,“卷模型还是卷应用”的争论有了确切的答案:大模型打破能力上的枷锁后,开发者可以在更多场景中开发有价值的应用。

譬如我们曾走访过一家工业企业,为了解决大型机械设备的维修问题,这家企业采用了AR眼镜+远程工程师的模式,即由当地工作人员戴着AR眼镜采集实时数据,后端的维修工程师进行远程指导,在一定程度上节约了工程师的差旅和时间成本,但培养一个工程师的时间成本近乎无解。

现在无疑有了新的解法:这家企业可以将工程师的经验和知识用于训练专有大模型,然后通过“视频通话”功能为现场员工赋能,在AI的指导下一步步解决问题,每个人都能拥有资深工程师的能力。

把思维再发散一些的话,几乎所有的场景,都可以利用“视频通话”能力重新做一遍,包括但不限于作业辅导、英语家教、景区导览、数字客服等等,等待开发者的不再是同质化竞争的局面,而是深入一个场景做深做实。

当想象力不再被制约的时候,就是价值加速变现的拐点,也是大模型盛宴开场的积极信号。

04 写在最后

年初的一场演讲上,智谱AI CEO张鹏曾断言:2024年一定是AGI元年,而多模态是AGI的一个起点。

2024年已经过去三分之二,回头再来审视张鹏的判断,正一步步被验证。同时也意味着,大模型行业的演进正走在一条可预见的道路上,不断在图文的基础上融合听觉、视觉等模态的认知能力,加速迈向AGI时代。