























几个小时前,DeepSeek 悄悄开放了识图功能。很多人的第一反应是:终于。第二反应是:才来?
有人说,晚出来但质量好,一样能赢。
这个逻辑放在文本领域成立过。R1 横空出世,确实让整个行业重新评估了"强推理"的门槛。但多模态不是一道题,它是一个生态。
两年时间,GPT-4o 已经在全球积累了大量图文交互的用户习惯;开发者围绕视觉能力搭建了无数产品;企业客户的采购决策早已落定。这些东西不会因为 DeepSeek 识图质量不错就重新洗牌。时间积累出来的生态,靠质量弥补不了。
何况,DeepSeek 识图上来也不是满分。复杂计数题出错,知识库滞后,视频理解、图像生成一概没有。对手们已经在跑下一圈,它刚刚站上起跑线。
所以 DeepSeek 做多模态,到底为了什么?
答案可能是不缺席,而不是称霸。
它的核心护城河从来不在多模态——是极致的成本效率,是文本推理和代码,是开源策略拉拢的开发者社区,是国内市场的本土优势。视觉能力补上来,是为了不让用户因为"它看不了图"而流失,而不是为了正面击败 chatgpt 。
按照规划,V4.1 将在 2026 年 6 月加入音频理解,实现文本、图像、音频三合一——但输出依然只有文字。它能看、能听,还不能说、不能画。
慢点无所谓,希望质量一定要稳住
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。