惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

GbyAI
GbyAI
T
Tenable Blog
Webroot Blog
Webroot Blog
L
Lohrmann on Cybersecurity
S
Securelist
S
Schneier on Security
NISL@THU
NISL@THU
Know Your Adversary
Know Your Adversary
C
Cybersecurity and Infrastructure Security Agency CISA
T
The Exploit Database - CXSecurity.com
L
LINUX DO - 热门话题
C
CXSECURITY Database RSS Feed - CXSecurity.com
O
OpenAI News
I
Intezer
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
TaoSecurity Blog
TaoSecurity Blog
S
Secure Thoughts
Application and Cybersecurity Blog
Application and Cybersecurity Blog
P
Privacy International News Feed
H
Hacker News: Front Page
N
Netflix TechBlog - Medium
M
MIT News - Artificial intelligence
博客园 - Franky
PCI Perspectives
PCI Perspectives
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
Microsoft Azure Blog
Microsoft Azure Blog
MongoDB | Blog
MongoDB | Blog
L
LangChain Blog
P
Proofpoint News Feed
S
Security Affairs
WordPress大学
WordPress大学
The Last Watchdog
The Last Watchdog
S
SegmentFault 最新的问题
小众软件
小众软件
F
Full Disclosure
博客园 - 叶小钗
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
T
The Blog of Author Tim Ferriss
Simon Willison's Weblog
Simon Willison's Weblog
P
Palo Alto Networks Blog
Security Latest
Security Latest
P
Proofpoint News Feed
月光博客
月光博客
T
Tailwind CSS Blog
Scott Helme
Scott Helme
Hacker News - Newest:
Hacker News - Newest: "LLM"
Google Online Security Blog
Google Online Security Blog
T
Threat Research - Cisco Blogs
Help Net Security
Help Net Security
Project Zero
Project Zero

人人都是产品经理

为什么你的产品找不到差异化?90%的失败都卡在第一步上(下) – 人人都是产品经理, 3年从30万到1300万用户、获2200万美元融资,这个AI教育产品用“抽卡”破解了获客难题 – 人人都是产品经理, 园区招商系统怎么做才能真正帮到去化?我加了这一个功能,推广链接转发400次阅读过万 – 人人都是产品经理, AI大事件:OpenAI发完网络安全模型又搞药物研发,小鹏汽车要抓”DeepSeek时刻” – 人人都是产品经理, 电商不是卖货,是一场更残酷的产品经理实战 – 人人都是产品经理, 没想到,活动营销又回来了! – 人人都是产品经理, 为何All-in海外KOC:一场关于AI时代窗口期的豪赌 – 人人都是产品经理, 重新理解企业的内部协作 – 人人都是产品经理, 苹果的 AI 战略到底是什么? – 人人都是产品经理, 医疗智能体·第2讲——合规护城河:等保、PIPL与HIPAA的架构实战 – 人人都是产品经理, 向量知识库五步法:从“答非所问”到“精准回复” – 人人都是产品经理, 鸿蒙PC三方库构建总指挥HPKBUILD(sha)库为例 – 人人都是产品经理, 何时该用LLM?AI产品经理的LLM设计指南 – 人人都是产品经理, 医疗信息领域的需求方、决策方、准入方以及关注点(二) – 人人都是产品经理, 即梦涨价:一场被误读的「傲慢」 – 人人都是产品经理, 面试AI PM必答题:Hermes和OpenClaw的区别,如何讲清楚业务价值 – 人人都是产品经理, AI的下一张船票:世界模型——AI产品经理必须理解的技术拐点 – 人人都是产品经理, 小红书做GEO,怎么让AI信你?记住这 3 个重要信息 – 人人都是产品经理, 5 家印度 AI 初创公司,看看印度 AI 再做什么 – 人人都是产品经理, AI项目跨团队协作:产品技术业务如何不打架 – 人人都是产品经理, Agentic Workflow(智能体工作流):让AI从”答案生成器”变成”数字员工” – 人人都是产品经理, lycium_plusplus 项目全景解读:OpenHarmony 三方库构建的“大管家” – 人人都是产品经理, 从爆单救火到前置履约:两套预采策略,把生鲜大促履约效率拉满 – 人人都是产品经理, 什么时候该补货?我用一轮数据做了一个决定 – 人人都是产品经理, 从“机械兜底”到“动态分流”:AI客服重复进线治理的4大底层逻辑 – 人人都是产品经理, 抖音拼效率,红书拼洞察 – 人人都是产品经理, 全民狂欢与退潮——为什么龙虾这波热潮冷却得如此之快? – 人人都是产品经理, Stripe押注!MPP重塑全球支付 – 人人都是产品经理, 小红书GEO:AI引用你的内容,不是因为你对,而是因为你看起来可信 – 人人都是产品经理, 前百度副总裁押注办公Agent,日韩付费爆发,Manus迎来强劲对手 – 人人都是产品经理, 企事业单位数字化的业务供需本质 – 人人都是产品经理, 医疗智能体·第1讲——医疗信息化重构:从“辅助软件”到“自主智能体”的范式转移 – 人人都是产品经理, 粉丝量就是空气!!! – 人人都是产品经理, 用户说“薯片碎了”,机器回“要买吗?”:意图识别的翻车与破局 – 人人都是产品经理, RAG召回准确率从75到90 我做对了这三件事 – 人人都是产品经理, AI大事件:Anthropic改收费、OpenAI发安全版、手术机器人纳入医保、阿里发布”秒悟” – 人人都是产品经理, Chrome 推出 Skills 新功能,Agent 重塑上网方式 – 人人都是产品经理, GitHub前创始人拿了a16z的1700万美元,做Agent时代的Git – 人人都是产品经理 拷贝或克隆其他 Flutter OH 项目到本地后无法运行 – 人人都是产品经理, 优惠券设计:优惠券创建 – 人人都是产品经理, 不用死磕文档!AI 助手 1 小时搞定飞书 CLI 安装 + 配置 + 知识库 – 人人都是产品经理, 用小龙虾做竞品分析报告:从2天到20分钟,我是怎么做到的 – 人人都是产品经理 用小龙虾做市场分析报告:搞懂这3个公式,市场规模不再靠猜 – 人人都是产品经理, 你早就在做 Harness 工程,只是不知道它叫这个名字 – 人人都是产品经理, Think Long就够?你可能想多了! – 人人都是产品经理, 货代SRM实战:供应商准入怎么做,才能让资源池不是通讯录而是可交付网络? – 人人都是产品经理, 如何做好用户调研?详解基本技巧 – 人人都是产品经理, 木鸟、途家、美团对打,平台春天行动开“卷” – 人人都是产品经理, 入职才发现公司不靠谱?小红书从业者求职避坑指南 – 人人都是产品经理, 美国 AI 三巨头联手封堵,中国 AI 突围之路在何方 – 人人都是产品经理, 小红书,放在需求对面的镜子 – 人人都是产品经理, AI 会带来大规模失业吗? – 人人都是产品经理, 从出单到补货前,我第一次犹豫:该不该放大? – 人人都是产品经理, Flutter 三方库鸿蒙化适配:5 种高效检查方式,快速判断是否需要适配 – 人人都是产品经理, 从做产品进阶拿结果:医美机构产品经理转岗科室运营经理 – 人人都是产品经理, 阿里HappyHorse,一场关于“Token经济”的阳谋 – 人人都是产品经理, To B AI:客户留存落地的观察与思考 – 人人都是产品经理, AI产品的“生命线”——数据采集、标注、清洗的产品化设计 – 人人都是产品经理, 谈谈AI Agent(二):当“孩子”能自己“体验世界”时,你该学什么? – 人人都是产品经理, UI/UX设计师的3层能力进阶,前两层让你活下来,第三层…才是真正的分水岭 – 人人都是产品经理, 2分钟 → 30秒,效率提升75%:B端产品经理如何用「规则枷锁」驯服AI幻觉? – 人人都是产品经理, 还没来得及学OpenClaw,来了个更猛的:Hermes Agent – 人人都是产品经理, AI日报:宇树机器人跑出10m/s刷新世界纪录 – 人人都是产品经理, 一文说透基金互金如何用情绪价值引导用户决策做转化 – 人人都是产品经理, 当浏览器开始替你”看”网页:AI 浏览器正在亲手拆掉它脚下的那张网 – 人人都是产品经理, 0代码,一天时间我Vibe Coding了个网站 – 人人都是产品经理, Hermes 和 OpenClaw 之争,Agent 的能力应该“装上去”还是“长出来”? – 人人都是产品经理 视频生成的“桌子”,字节Seedance 2掀完,阿里快乐马掀 – 人人都是产品经理, 从听不懂到完全信任:我的 Codex 深度产品体验 – 人人都是产品经理, 当虚拟偶像有了北京户口,与真人偶像还有什么区别? – 人人都是产品经理, 会说,远远比会做更重要 —— 对 SBTI 爆火现象的五层观察 – 人人都是产品经理, AI产品经理必看:当“搭环境”比“选模型”更重要,你的认知还在2024年吗? – 人人都是产品经理, 2026年AI产品商业化核心逻辑:从功能demo到规模化营收的3个必破卡点 – 人人都是产品经理, 京东围绕供应链,卷起裤腿下场的那些事儿 – 人人都是产品经理, SBTI一夜刷屏:它赢在了“太会说人话” – 人人都是产品经理, 折扣零售的真相:不是便宜,而是价值感! – 人人都是产品经理, 和甲方吵了一架,最后加钱做了——我学到的ToB产品经理生存法则 – 人人都是产品经理, 和几位小红书操盘手聊了8小时,干货全在这 – 人人都是产品经理, 智谱GLM-5.1登场,开源模型首超Opus4.6!!! – 人人都是产品经理 Anthropic收入凭什么反超OpenAI,终于有人把这事说清楚了 – 人人都是产品经理, 史上最有故事感的技术报告——Claude最强模型Mythos 7个极其精彩的细节 – 人人都是产品经理, 模型不是壁垒,Harness 也不是 – 人人都是产品经理, 抖音本地生活业务思考21 – 人人都是产品经理, Superpowers:145k Star的AI编码框架,到底是什么来头? Superpowers:145k Star的AI编码框架,到底是什么来头? – 人人都是产品经理, OpenAI 的路走错了,Anthropic Harness 解法启示:模型需要实践专科生 – 人人都是产品经理, 画原型图的前一步:设计站点地图 – 人人都是产品经理, 给 DeepSeek 的最后一封催更信 – 人人都是产品经理, 手把手教你用 Claude Code 搭建 AI 营销团队:5 个 Agent、12 项技能,独立完成研究、写作、设计全流程 – 人人都是产品经理, 你以为大模型在学语言?不,它在重新发明语言学 – 人人都是产品经理 所谓Skill,不过是AI时代的工业垃圾 – 人人都是产品经理, 聊一聊内容传播的几个方法 – 人人都是产品经理, 当平台开始吃掉生态:从 OpenClaw 被封杀,读懂 Anthropic 的这盘棋 – 人人都是产品经理, 你装了 10 个 AI 插件,Obsidian 还是一个文件夹 – 人人都是产品经理 关于AI智能体架构演进的系统性思考:从单体试水到多体协同的重构 – 人人都是产品经理, 当“人”变成Skill,我们又该何去何从? – 人人都是产品经理 Mythos 事件:前沿 AI 治理的意外实验 – 人人都是产品经理, 货代CRM:信用与风险管理怎么做,才能把坏账风险拦在放货之前? – 人人都是产品经理, 从HR收集自拍照到员工自助录入——我见证了园区人脸识别从”不可用”到”真好用”的全过程 – 人人都是产品经理 千问闯关AI混沌期:阿里画靶,吴嘉张弓,马云射箭? – 人人都是产品经理,
DeepSeek首次有了视觉能力,技术论文却被它连夜删掉了
硅星人 · 2026-05-01 · via 人人都是产品经理

DeepSeek 通过视觉基元技术重新定义多模态推理边界,其灰度测试的视觉能力展现出原生思考特性而非简单图像识别。这款模型用点、框、路径坐标作为认知锚点,在迷宫求解、网页复刻等场景实现精准空间推理。技术论文《Thinking with Visual Primitives》的突然撤稿更引发行业对其突破性进展的猜测。

DeepSeek做了件罕见的事情:在终于开始灰测多模态能力后,它放出了一篇解释背后技术的论文,但这篇论文却在发布没多久就又被悄悄撤掉。

4月29日,DeepSeek研究员陈小康在X发布一条推文——现在,我们可以看见你了。配图中,DeepSeek 标志性的鲸鱼 logo 摘下眼罩,露出了眼睛。

过去,DeepSeek 最被外界熟知的是它在文本、代码和推理任务上的能力。但真实世界里的问题,并不总是以文字形式出现。它们可能是一张照片、一页论文图表、一个网页截图、一份复杂表格,也可能是一个需要理解空间关系和视觉细节的现实场景。

对 DeepSeek 来说,视觉能力是让它的推理能力从文本世界延伸到真实世界的关键一步。但这次灰测的视觉能力,很快被使用者们感觉到不同:它和其他模型给语言模型底座增加多模态功能不同,更像是一个单独的模型,且不是以附庸形式定位,而是有某种原生的思考和推理能力。

就在大家好奇心增加的时候,DeepSeek发布了一篇解释它追求的视觉能力的论文:《Thinking with Visual Primitives》。

Primitives是图形学和几何里的常用术语,Visual Primitves可以理解为那些用来描述几何信息图形空间信息的最基本元素,也可以称为视觉基元。从这个题目就可以看出,DeepSeek眼里此刻最重要的“多模态”能力,依然是围绕推理和思考,它要让模型能在原生层面用图形的基础语言做更准确的思考。

这并不是所有主流模型厂商在多模态领域的方向,这让人意外,但这个想法非常有趣。DeepSeek再次给基础研究提供了新的思路。

但更加让人意外的是,这篇论文很快就被撤下了,没有给出任何解释,也不确定是否会再次发布。

所以,DeepSeek这次的视觉能力到底是怎样的?我们结合实测、它的研究员的分享,以及这篇“消失”的论文的内容,来尝试解释一下它的做法。

01 当DeepSeek 的视觉能力,开始进入真实场景

目前DeepSeek的视觉模式还在灰度测试,逐步向用户开放中。

从 X 上已经试用到这一功能的用户反馈来看,DeepSeek 的视觉能力并不只是识别图片里有什么,更重要的是,它会尝试把图像中的信息和已有的世界知识联系起来。

有用户在X上表示DeepSeek视觉模式的世界知识非常丰富,思考过程也很有趣。他在公司附近拍了一张照片,发给DeepSeek。在DeepSeek的思考过程中可以看到,它几乎知道我公司附近的每一栋楼,并尽量搜索正确的那栋。并且这个过程中没有用到联网搜索能力。

还有用户表示DeepSeek的网页复刻还原能力非常好。这对设计师和产品经理来说,它可以让视觉稿更快变成可演示的原型。以前从 Figma、截图或参考网页到可点击 demo,中间需要设计师标注、开发切图、工程师实现。现在模型能直接读懂页面,并生成接近真实效果的网页,让想法验证的周期大幅变短。

我实际测试了DeepSeek的视觉理解能力。我发送了一张迷宫图让它解答。

DeepSeek的思考过程十分严谨,它用的是反向推理的方法,从终点出发,逐步反向追踪,走到起点。为了验证解法的可行性,DeepSeek这一路径用正向的方式走了一遍,然后它又核算了一遍,再输出最终答案。整个过程中,DeepSeek推理了四遍路径的可行性。

02 多模态模型的难题,不只是看不清

陈小康在30号发布的推文中给了更详细的解释:传统的思维链(CoT)主要停留在语言空间里,但视觉推理需要更多能力。通过把点和框作为认知锚点,我们的模型弥合了“指代鸿沟”(Reference Gap),模拟了人类在视觉推理中常用的“指向—推理”协同机制。

通过DeepSeek发布的报告,我们可以看到他们针对视觉理解提出了一个新的推理框架,就是使用视觉基元进行思考(Thinking with Visual Primitives)。

什么是使用视觉基元进行思考呢?

简单来说,就是让模型在看图推理时,不再只依赖自然语言描述,而是把图像中的点、边界框、路径坐标等空间标记,也作为推理过程的一部分。

以往多模态模型面对一张图片时,通常会用语言来组织思考。比如它会说“左边那个人”“右上角的物体”“中间那条路”。但问题在于,这些描述在人类看来很自然,对模型来说却并不总是精确。尤其在一张复杂图片里,如果有很多相似的人、物体或区域,“左边那个”“旁边那个”很容易变得模糊,模型也可能在推理过程中把对象搞混。

DeepSeek 在报告中把这个问题称为“指代鸿沟”。也就是说,模型不是完全看不见,而是看见之后,很难在连续的视觉空间中稳定地指向自己正在讨论的对象。

视觉基元要解决的正是这个问题。所谓视觉基元,可以理解为模型在图像中的“手指”。当模型数一张合照里有多少人时,它可以先用边界框把每个人标出来,再进行统计;当模型判断两个物体的位置关系时,它可以先框出相关物体,再比较它们的相对位置;当模型走迷宫或追踪一条线时,它可以用一串点记录路径,而不是只用语言说“往左、再往右”。

这样一来,模型的推理就不再悬浮在文字里,而是被锚定到图像中的具体位置。这也是 DeepSeek 使用视觉基元进行思考最重要的变化,多模态模型的能力不只是看得更清楚,还要指得更准确。

03 DeepSeek 怎么做视觉推理

陈小康指出,目前DeepSeek的视觉模型主要处理三类任务:计数、空间推理和拓扑推理。

DeepSeek 的做法不是简单让模型看更高分辨率的图片,而是让模型在推理过程中使用点、框、路径坐标这些“视觉基元”,把每一步判断都落到图像中的具体位置上。

在计数任务上,DeepSeek 主要使用的是边界框。

报告中说,多模态大语言模型一直很难做到准确计数,尤其是在密集场景中。人类在数东西时,通常会采用一种“系统扫描和累加”的方式,比如从左到右一个个点着数。但语言模型在对象数量较多时,很难建立精确的对象对应关系。为了解决这个问题,DeepSeek 使用边界框作为视觉基元,为每个被计数对象提供明确的视觉锚点。

也就是说,模型不是直接凭感觉回答“有多少个”,而是先把目标对象找出来、框出来,再基于这些框进行统计。比如数一张合照里有多少人,模型会先框出图中的每个人,再计算总数。对于更复杂的细粒度计数,比如“有几只熊在地面上”,模型还会先找出所有熊,再逐一判断它们是在树上还是在地面,最后得出答案。

报告中还把计数分成了两类:一类是粗粒度计数,比如数“狗”“人”“车”这类普通对象;另一类是细粒度计数,比如数“白色的狗”“左边的狗”“站在地上的熊”。后者不仅要求模型识别对象,还要判断颜色、位置、状态等附加条件。DeepSeek 在这里采用的是“定位—验证—统计”的流程,让模型先找到候选对象,再逐个判断是否符合问题条件。

在空间推理任务上,DeepSeek 也是先让模型用视觉基元锚定对象,再进行关系判断。

报告中说,空间推理和一般视觉问答被放在同一个类别里处理,因为这类任务的共同难点是:如果只用语言描述,模型很容易出现指代模糊和语义漂移。比如“灰色金属物体”“旁边那个小物体”“同样大小的紫色橡胶物体”,这些说法如果不落到具体图像区域上,模型在推理过程中很容易把对象搞混。

所以 DeepSeek 的方法是,让模型先把关键对象框出来,再根据这些具体对象进行多步推理。报告中的例子是,模型需要判断图中是否存在一个紫色橡胶物体,和灰色金属物体大小相同。模型会先定位灰色金属球,判断它是小物体;然后再逐一检查其他小物体,看它们的颜色、材质、大小是否匹配。最后模型得出结论:图中没有符合条件的紫色橡胶物体。

在拓扑推理任务上,DeepSeek 主要使用的是点。

拓扑推理关心的不是某个物体是什么,而是路径、连通性和结构关系。比如迷宫里从起点能不能走到终点,一堆交错的线条中,某一条线最终连到哪个图标。这类任务对多模态模型尤其困难,因为它要求模型持续跟踪路径,而不是看一眼就回答。

报告中说,纯语言的思维链很难准确描述不规则形状的轨迹,因此使用点作为认知单元的视觉基元,特别适合处理这类问题。

在迷宫导航任务中,DeepSeek 会让模型先找到起点和终点,然后像做深度优先搜索一样探索路径。模型每走到一个关键位置,就用点坐标记录下来;如果遇到死路,就回退到前一个岔路口,再尝试另一条路径。报告中提到,模型需要理解空间连通性和可达性,也就是判断哪里有路、哪里被墙挡住、哪条路径最终能到达终点。

在线条追踪任务中,模型也会用一串点来表示自己沿着哪条线走。报告中说,这类任务的核心挑战是交叉点消歧:当两条线交叉时,模型必须根据局部几何连续性判断哪一条才是目标线的延续,而不是被另一条线带走。为了防止模型只是靠颜色猜,DeepSeek 还设计了所有线条颜色和粗细都一样的样本,迫使模型真正根据曲线连续性来追踪路径。

04 视觉基元并不是终点

不过,使用视觉基元进行思考,并不意味着视觉推理问题已经被彻底解决。它最大的优势,是让模型的视觉推理变得更稳定,也更容易被验证。

这会带来两个直接好处。

一是减少幻觉。模型如果要判断“这里有没有紫色橡胶物体”,就不能只凭语义猜测,而要先在图中找出候选物体,再逐一排除。二是提高可解释性。比如模型说一张图里有 25 个人,如果它同时框出了这 25 个人,用户就能判断它有没有漏数、重复数,或者把其他物体误认成人。

这也是为什么 DeepSeek 的视觉模式在网页复刻、迷宫求解、复杂图像问答这类场景中会显得更有用。网页复刻需要模型理解页面里的模块、层级和布局关系;迷宫求解需要模型持续追踪路径;复杂图像问答则要求模型在多个视觉线索之间来回比对。它们共同需要的不是一句笼统的图片描述,而是模型能够稳定地“看图说话”。

另一个优势是效率。报告中提到,DeepSeek 并不是简单依赖大量视觉 token 来弥补视觉能力,而是通过更高效的视觉 token 压缩架构,让模型在较低图像 token 消耗下仍然保持较强的推理能力。报告中说,对于 800×800 的输入图像,其模型在 KV cache 中只保留大约 90 个条目,却能在计数和空间推理等基准上取得有竞争力的表现。

DeepSeek 想走的路线,并不是无限提高分辨率、堆更多图像 token,而是让模型更有效地使用视觉信息。

但这套方法也有局限,报告中提到这类方式有三部分的局限。

首先是受输入分辨率限制,模型在细粒度场景下的表现仍然不够理想,有时会输出不够精确的视觉基元。也就是说,如果图像里的目标非常小、细节非常密,或者需要识别的区域边界很模糊,点和框本身也可能标得不准。视觉基元能改善指代问题,但它不能完全替代感知能力。模型首先要看清楚,才谈得上指得准。

第二个局限,这种能力目前还依赖显式触发。报告中说,当前使用视觉基元进行思考的能力需要通过明确触发词来激活,未来希望模型能够根据具体上下文,自主判断是否调用这一机制。

这意味着,现在模型未必会在每个需要的场景里自动使用这项能力。用户如果只是普通地问“这张图里有多少人”“这条路能不能走通”,模型可能仍然用普通语言推理,而不是主动输出点、框或路径。真正理想的状态应该是,模型自己判断这个问题是否需要精确视觉定位。如果是计数、路径、空间关系这类任务,它就自动拿出“手指”;如果只是描述画面氛围,就不必调用这套机制。

第三个局限,是拓扑推理仍然很难。报告中说,使用点作为视觉基元来解决复杂拓扑推理问题,仍然是一项艰巨挑战,目前模型的跨场景泛化能力也有限。

这不难理解。点可以告诉模型“我现在走到哪里”,但点本身并不直接表示“这里和那里是否连通”。在迷宫里,两个点看起来很近,中间可能隔着一堵墙;在交错线条中,两条线可能在视觉上相交,但实际并不是同一条路径的延续。模型不仅要标点,还要持续判断连通关系、路径方向和局部几何连续性。只要中间某一步走错,后面的推理就可能全部偏掉。

所以,视觉基元让模型开始能够在图像中定位、比较和追踪。但要真正处理开放世界里的复杂视觉问题,还需要更强的感知能力、更稳定的自主调用机制,以及更好的跨场景泛化能力。

在视觉理解层面,DeepSeek 给出的答案是,让图像不再只是输入材料,而是成为模型推理过程的一部分。模型不只是看见世界,而是开始学会在世界中找到锚点。

这不像是一个附带的研究,更像是DeepSeek对视觉的最重要的一个不同的理解。因此这次罕见的删除论文行为也引起不少遐想,有人认为它对于开源模型来说“太强大”了,以至于不适合发表。真相如何可能要等DeepSeek自己给出解释了。

作者|孙芮

本文由人人都是产品经理作者【硅星人】,微信公众号:【硅星人Pro】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。