惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

T
Tor Project blog
B
Blog RSS Feed
M
MIT News - Artificial intelligence
WordPress大学
WordPress大学
H
Hackread – Cybersecurity News, Data Breaches, AI and More
罗磊的独立博客
GbyAI
GbyAI
N
Netflix TechBlog - Medium
博客园 - 司徒正美
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
宝玉的分享
宝玉的分享
W
WeLiveSecurity
Stack Overflow Blog
Stack Overflow Blog
Y
Y Combinator Blog
SecWiki News
SecWiki News
V
Vulnerabilities – Threatpost
Google DeepMind News
Google DeepMind News
C
CERT Recently Published Vulnerability Notes
T
Tailwind CSS Blog
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
The Register - Security
The Register - Security
Cisco Talos Blog
Cisco Talos Blog
Martin Fowler
Martin Fowler
A
About on SuperTechFans
S
Security @ Cisco Blogs
T
Tenable Blog
C
Check Point Blog
N
News and Events Feed by Topic
S
SegmentFault 最新的问题
The GitHub Blog
The GitHub Blog
C
Cyber Attacks, Cyber Crime and Cyber Security
Attack and Defense Labs
Attack and Defense Labs
美团技术团队
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
C
Cisco Blogs
P
Palo Alto Networks Blog
V
V2EX
博客园 - 聂微东
Project Zero
Project Zero
酷 壳 – CoolShell
酷 壳 – CoolShell
D
Docker
N
News | PayPal Newsroom
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
小众软件
小众软件
Application and Cybersecurity Blog
Application and Cybersecurity Blog
人人都是产品经理
人人都是产品经理
V2EX - 技术
V2EX - 技术
I
Intezer
L
LINUX DO - 最新话题

InfoQ - 促进软件开发领域知识与创新的传播

Meta 收购 Manus 这事儿泡汤了 5.5万 Star 开源项目 Ghostty 被迫出走,GitHub 正在终结一代技术人的乌托邦 Slack 长时运行多智能体系统的上下文管理方案 从 T+1 到分钟级:金城银行基于 Apache Doris 构建高可靠、强一致的实时数据平台 谷歌云推出 Agents CLI,简化 AI 智能体开发全流程 Claude官方击穿高薪、高学历的安全防线!Anthropic点名10大高危职业,但有群人暂时稳了 亚马逊云科技终止 WorkMail 服务,并将 App Runner 转入维护模式 OPPO小布记忆:全模态碎片化内容的理解与智能整理实践|AICon上海 模力工场038周AI应用周榜:工具在消失,工作流在出现 Akamai CEO Tom Leighton:Agent 时代来临,云基础设施正从“中心化”转向“分布式边缘” 日均数百亿入库背后:从“人肉调度”到K8s弹性架构,度小满金融基于OceanBase重构入库架构实践 百度文库网盘发布GenFlow 4.0:月活用户超1亿,要把网盘变成全端AI工作台 Altman 投的 Agent 终端 Warp 开源了!斩获3.5万star 哪些客户需要拒, 敢让龙虾决定吗?_AI&大模型_InfoQ 中文站_InfoQ精选视频 从开发到生产:为什么越来越多的机器学习团队纷纷迁移到 Snowflake | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 探索多智能体工作流:LangGraph Snowflake Cortex AI | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 腾讯云分布式缓存数据库:AI Agent - 从提示词工程到 Harness 工程 | 腾讯云数据库 DBTalk_腾讯_凌敏_InfoQ精选视频 基于 Streamlit 为 CSV 数据构建分析智能体 | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 AI 智能体:告别文档缺漏 | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 构建 AI 驱动的数据管道:深度探讨 Snowflake Openflow 与非结构化数据 | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 云端太贵、本地不够聪明,英特尔押注“端云混合AI”:智能体PC会替人完成工作 不到10%的存储投入,可能拖垮90%的GPU投资!IBM把AI Agent塞进存储系统,算清企业最容易忽略的一笔账 Snowpark 上手实战 | BUILD 2025_大数据_王玮_InfoQ精选视频 ClickHouse + Langfuse,构建 Agent 可观测基石 腾讯云分布式缓存数据库:Cluster Proxy 共享连接架构深度解析 | 腾讯云数据库 DBTalk_腾讯_凌敏_InfoQ精选视频 AI 写代码太烧钱了:Copilot、Claude 一起涨价,不如把程序员请回来? 英特尔发布至强600系列工作站处理器与锐炫Pro B70 GPU,全新AI工作站来了 腾讯云分布式缓存数据库:从 Redis 到 Valkey - 开源社区如何快速创新 | 腾讯云数据库 DBTalk_腾讯_凌敏_InfoQ精选视频 印奇这次要“从0重做”智驾模型!首谈阶跃和千里双公司布局:中国AI商业闭环要靠车跑出来 从Cursor返聘归来,90后华裔女高管带Claude开启日更模式:token成本比工程师工资低多了! 从 Coding 到 Agent:QCon 北京 2026 全景复盘,优秀出品人 & 明星讲师名单揭晓 全链路支撑大模型国产化“Day 0适配”,商汤大装置构建全栈能力底座 凌晨,OpenAI 与亚马逊云科技史上最大联合发布来了 HashiCorp Vault 2.0 发布:引入新身份联邦机制,迈入 IBM 生命周期体系 Yelp 实现超 1,000 个 Cassandra 节点零停机升级 写了 17 年开源代码,我为什么认为 Coding Agents 堆功能是在瞎折腾? 基于 Apache Camel 编排智能体与多模态 AI 管道 面向智能体与人类用户的AI记忆系统:架构设计与核心场景实践|AICon上海 Anthropic 推出 Managed Agents,简化 AI 代理部署流程 阿里HappyHorse开启灰测,720P视频生成低至0.44元/秒 讯飞联合清华团队押注量子AI:不看营收、不设KPI,一群“无人区”科学家,抢夺下代AI算力入口 小米万亿模型全面开源:MIT 协议、1M 上下文,但还是打不过 DeepSeek Cortex Code 入门指南:面向数据工程师的实践路径 | 技术实践 openJiuwen社区首发Team Skills,定义Coordination Engineering新范式 用 Snowflake Cortex Agents 释放结构化数据的最大价值 | 技术实践 Grafana 利用 Kafka 对 Loki 进行了架构重构,并发布了一款命令行工具,旨在将可观测性引入编码代理 ClickHouse重构全文索引:对象存储上跑出高性能 Full-Text Search 可观测性和遥测技术如何提升软件工程实践 Dropbox 与 GitHub 合作,将单体库大小从 87GB 缩减至 20GB Agent 的下一站:基于长期记忆系统 EverOS 的自我演进|AICon上海 同一赛道,四种收费:Agent 控制层(Harness)开始分裂 Cloudflare Sandboxes 正式发布,为 AI 代理提供持久化隔离环境 Agent 的“记忆断片”困局,该怎么破?_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选视频 数据分析师如何快速建立在 AI 时代最值钱的能力:一份可落地的行动路线图 摩尔线程最新财报:研发占比超86%,万卡级大规模智算集群落地 当云区域失效:地缘动荡环境下的高可用重构 Slack 重构通知系统,设置参与度提升 5 倍 智能体工程的隐性技术债务 “我把所有模型都换成了DeepSeek V4”:月账单将降 90%,效果还更好 阿里云智能集团高级技术专家刘少伟已确认出席AICon上海站,并分享如何构建企业 Agent 的自动化行动架构 构建生产就绪的 tRPC API:Apollo Federation 的 TypeScript 替代方案 Anthropic推出面向Claude Code的基于智能体的代码审查功能 北京车展直击:斑马智能甩出车载Agent短剧,比亚迪率先落地,AI让智能座舱又热起来了 Snowflake 作为智能体运行时:从静态管道迈向自主数据系统 | 技术实践 Snowflake 上的本体体系:基于 Cortex Code 能力实现从架构到部署 | 技术实践 Cloudflare 公布 MCP 架构方案,应对企业面临的安全与治理风险 复杂的项目管理怎么做到「AI 友好」?飞书项目用「开放」给出答案 Snowflake Cortex Code 的规范驱动开发:将 SDLC 方法论引入 AI 辅助工作流 | 技术实践 Copilot 不让注册了:从“随便用”到“全面限”,agent 把原有订价模型顶穿了 当互联网用AI卷效率时,这家公司先问了一连串“能不能” Meta 开始记录员工每一次点击:AI 要接管工作,先监控会工作的人 Meta“Token榜”逼疯打工人,一夜烧掉公司几万刀!AI时代Token焦虑越来越离谱 智源FlagOS完成DeepSeek-V4-Flash在八款芯片Day0适配,实现三重技术突破 DeepSeek V4 重磅开源!首次打通华为Ascend,也没丢掉英伟达,百万上下文夺回国产模型话语权 李志飞的“新实验”:当超级个体撞上真实组织 GPT-5.5 登顶时刻,Anthropic 亲口承认 Claude 变笨了!网友群嘲:太敷衍 那些没空写的小需求,龙虾真能做吗?_AI&大模型_InfoQ 中文站_InfoQ精选视频 从 Pandas 到生产:使用任意 IDE 进行可扩展的 ML 数据管道与分布式处理 | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 pnpm 11 候选版本发布,带来 ESM 分发、供应链默认设置以及新的存储格式 银行业PDF表格提取方案重构:基于Java的分层方案 GPT-5.5 赢了 Opus 4.7 和 Mythos?奥特曼晒黄仁勋内部信:英伟达全员用上 Codex! Cloudflare 推出 Think:一款面向 AI 代理的持久化运行时 1850亿美元天价支出、75%代码由AI生成!谷歌正式宣告:全面转向智能体工作流 xAI落后太多,马斯克“开大”重金求购Cursor,100亿美金“分手费”都敢签! Pulumi 新增对 Bun 运行时的全面支持 姚顺雨腾讯模型首秀!不卷参数只做 “听话打工人”,Hy3 preview登场 | 附实测 老板让你“忽悠”投资人,你敢发给龙虾吗?_AI&大模型_InfoQ 中文站_InfoQ精选视频 Gemini CLI 引入子代理机制,实现任务委派与并行代理工作流 清华系团队星工聚将完成数千万天使轮融资,轮式机器人拿下头部制造企业亿级大单 Pretext.js 绕过 DOM 布局重排,实现 120 FPS 的高级交互体验 靠“AI 云”爆红的 Vercel,栽在一个第三方AI工具手里!IPO前夕遭黑,200万美元赎金谈崩? 高能研讨会|端侧 AI 正在重写实时感知效率上限_AI&大模型_王玮_InfoQ精选视频 2050大会看这篇就够了|报名、交通食宿指引大全 Java 近期资讯:OpenJDK JEP、Jakarta EE 12、Spring Framework、Micrometer、Camel、JBang 金融智能的架构编排:基于 Snowflake Cortex Agents 实现结构化与非结构化数据统一分析 | 技术实践 在AK大神爆火的任务里,摸清国产AI真实水平 百灵Ling-2.6-flash 正式发布:高 Token 效率,以 1/10 消耗实现 SOTA 级 Agent 能力 当 PM 懂AI,当技术懂产品:AI 时代产品力的双向进化|PM x AI产品力领航者大会即将开幕 为 AI 智能体设计记忆机制:揭秘 LinkedIn 的认知记忆智能体 获奖名单公布|2026主题征文第一期|分享你最有价值的龙虾场景与核心 Skill_热门活动_InfoQ写作社区官方_InfoQ写作社区
最大开源第一视角数据集 EgoLive 来了,名校站台、近百家机构争相申请
李冬梅 · 2026-06-26 · via InfoQ - 促进软件开发领域知识与创新的传播

具身智能下半场,得“第一视角”者得天下

最近几个月,具身智能赛道太火了。

这种火爆在资本侧体现得尤为明显。仅 6 月前 17 天,具身智能赛道就发生了 11 起投融资事件。6 月 16 日,极佳视界宣布完成 10 亿元 B2 轮融资,资金将用于物理 AGI 基础模型研发迭代,以及 C 端家庭场景和 B 端工业场景规模化落地,前一日,世航智能宣布完成 A 轮融资,大晓机器人完成天使+轮融资。

另据 IT 桔子数据,今年一季度,具身智能领域已发生投融资事件 132 起,融资金额合计 318.61 亿元

资本热度背后,是行业对具身智能产业化拐点的期待。

但热钱并不意味着问题已经解决。相反,随着更多企业进入本体、模型、控制、灵巧手和场景应用,行业短板也更清晰地暴露出来:机器人要真正进入家庭、仓储、零售、医疗、工业等场景,仍然缺少足够真实、足够规模化、能够支撑模型训练和验证的数据。

这也是具身智能下半场真正困难的地方。模型需要理解人看到什么、先拿什么、为什么换一种抓取方式、遇到遮挡如何调整、失败后如何恢复。这些细节,很难只靠文本、普通视频或仿真环境补齐。

过去,具身智能数据主要来自三条路径:真实机器人原生数据、仿真数据和主从遥操作数据。真实机器人数据最贴近物理世界,但采集成本高、周期长,还容易受机器人硬件结构和动作空间限制,难以跨机型复用;仿真数据成本低、可批量生成,但始终存在虚实鸿沟,模型迁移到真实场景后容易掉性能;遥操作数据能提供机器人可执行的动作轨迹,但依赖专业设备和熟练操作人员,链路复杂,也容易和具体机型绑定。

也正因为这三条路径很难同时满足真实、低成本、可规模化和可泛化的要求,第一视角数据才变得越来越重要。

相比第三视角数据,它更接近操作者当时看到的世界;相比遥操作数据,它更容易在真实场景中规模化采集;相比纯仿真数据,它又保留了真实物理环境中的长尾变化。

近年来,英伟达 FLARE、Meta Ego4D / Ego-Exo4D、苹果 EgoDex 等项目都在加码第一视角数据。

而在今年 4 月,京东开源了当前业界最大规模的人类第一视角数据集 EgoLive ,首批开放 2000 小时视频、65,866 个 episode、346 个真实世界任务,覆盖家庭、仓储、药房等场景。 目前,EgoLive 已收到来自 8 个国家及地区的近百家高校及科研机构申请。

从使用反馈来看,高质量第一视角数据的稀缺性也得到了进一步验证。据清华大学、北京航空航天大学、中山大学、上海交通大学、南洋理工大学等海内外高校与科研机构集体反馈,EgoLive 是当前行业中极为稀缺的可用第一视角数据集,在数据规模、任务覆盖和标注质量上具备很高的研究价值。

这也从侧面说明,第一视角数据集正在成为具身模型训练和评估中的关键资源。

EgoLive 论文地址:https://arxiv.org/html/2604.23570v1

图注:与具身操作和人到机器人迁移相关的代表性人类第一视角数据集对比。只有当某一模态在该数据集的主要公开版本中提供时,表中才将其标记为具备该模态。EgoLive 面向真实世界场景,在采集时长上位居第二,同时在时空分辨率和标注完整性方面具有更优表现。

2000 小时第一视角开源王炸数据集,EgoLive 的价值是什么?

如果说第一视角数据正在成为具身智能训练的重要入口,EgoLive 更值得关注的地方在于,它并没有停留在“收集更多视频”这一层,而是试图把真实世界中的人类操作过程,整理成一套可以被模型训练、评测和复用的数据资产。

这也是它和普通第一视角视频数据最大的差别。

EgoLive 的独特性主要体现在三个层面:一是用更接近人类自然行为的方式采集数据;二是把第一视角视频加工成带有几何、动作和语义信息的多模态数据;三是通过真实场景和长尾任务覆盖,提高数据对具身模型泛化能力的支撑价值。

首先是采集方式。此次数据采集是由京东自研的头戴式采集设备 JoyEgoCam 完成。设备上有双目 RGB 相机,能提供类似人类双眼的宽视场;同时集成 IMU,IMU 频率是 200Hz。视频是 2160×2160、60Hz 的双目 RGB 数据,并配套相机标定文件、触发帧时间戳和同步 IMU 数据。

图注:人体数据采集系统 该系统采用 JoyEgoCam,这是一款定制设计的头戴式设备,用于在真实环境中采集人体行为数据。它配备立体 RGB 摄像头,提供宽广的视野,并集成 IMU,测量频率为 200Hz。

这套设计的巧妙之处在于减少对人的干扰。它和 VR 头显不同,不会遮挡人的脸,也不像一些可穿戴设备那样影响手部动作,采集者可以比较自然地做日常动作。

这样一来,采集者可以在家庭、零售、药房等真实场景中更自然地完成任务,系统则从人的第一视角记录整个操作过程。

其次是标注方式,也是 EgoLive 数据集上的主要技术突破。第一视角数据的难点不只是采集,更在于标准化处理,操作者在移动、低头、转身时,画面会抖动;手与物体之间经常相互遮挡;一个完整任务又往往包含多个连续步骤。如果只把视频直接交给模型,里面大量有价值的信息仍然是“隐形”的。

围绕人类第一视角视频数据,京东探索研究院研发了一整套多模态、高精度的自动化处理算法,可提供手部关键点、深度重建、手物分割、子任务切段、语义描述等多维标注信息。尤其在 3D 场景恢复和 3D 轨迹重建方面,EgoLive 取得了业界领先精度:场景恢复达到毫米级精度,约 3~5mm;3D 轨迹重建达到厘米级精度,约 1~1.5cm。

这套能力为行业第一视角数据处理提出了具有京东特色的标准,也为具身智能模型训练提供了更充分、更精确的信息基础。

换句话说,EgoLive 并不是简单把人类第一视角视频堆成一个数据池,而是把一个连续操作视频拆解成多层结构化信息:哪只手参与了操作,手部关节和手腕在三维空间中如何运动,操作者正在接触哪个物体,物体在画面中的位置和轮廓是什么,当前动作属于整个任务的哪一步,以及这一步可以怎样用语言描述。

从技术层面来看,京东团队把这套自动标注能力拆成三个模块:运动追踪、语义理解和 3D 重建。

在运动追踪上,EgoLive 会估计手腕和手部关节的 6D 轨迹,并与相机自身运动同步,建立动作参考坐标系。系统先基于 HaMeR 估计手部 MANO 参数,再结合双目空间做优化;相机位姿则通过 ORB-SLAM3 融合双目 RGB 和 IMU 数据估计。这样,数据不只记录“手在画面哪里”,还记录“手在真实三维空间中如何移动”。

在语义理解上,系统会检测人手和被交互物体,并通过跟踪、分割和大模型生成自然语言描述。EgoLive 使用 BoT-SORT 进行跟踪,用 SAM2 生成手和交互物体的分割 mask;每个 episode 会根据手物检测与跟踪结果切分成多个 sub-task,再由微调后的 Qwen3-VL-32B 对子任务片段生成细粒度描述。这样做的目的,是让数据同时具备视觉、动作和语言层面的监督信号

在 3D 重建上,EgoLive 利用双目视觉恢复场景深度和空间结构。系统使用 Foundation Stereo 从精细标定后的双目 RGB 视频中重建 1152×1152 分辨率的深度图。深度信息能帮助模型理解物体和手之间的空间关系,也让第一视角数据更接近机器人真实执行时需要面对的物理世界。

图注: 基于任务描述的 EgoLive 离散语义组合。(a) 任务类别分布,展示了对现实世界活动领域的覆盖,包括家务服务、组织、清洁、物流和其他操作密集型场景。(b) 从指令标题中提取的高频语义标签的词云,涵盖动作、对象和对象属性。

第三层价值来自场景和任务覆盖。EgoLive 首批开放约 2000 小时高精数据、65,866 个 episode、346 个真实世界任务。对第一视角数据而言,规模本身很重要,因为具身模型需要见过足够多不同任务、不同环境和不同操作方式,才可能在真实场景中获得更好的泛化能力。

图注:从不同数据集的指令描述中提取的语义标签分布情况:(a)对象分布,(b)动作分布,(c)属性分布。x-轴表示词频阈值 n 以及是轴表示频率大于某个阈值的不同单词的数量。n(日志-日志规模)。

这一点对具身智能训练很重要。数据太窄,模型容易只记住少数场景;数据太散,模型又很难学到稳定规律。EgoLive 试图在“覆盖广度”和“局部密度”之间取得平衡,让模型既能看到长尾变化,也能从同类操作中学习可迁移的模式。

因此,EgoLive 解决的核心问题,并不是行业“有没有第一视角视频”,而是第一视角数据能否被规模化采集、标准化加工,并最终沉淀为可训练的数据资产

最终,数据集的价值最终要回到模型表现上,EgoLive 的这些能力最终会体现在 JoyAI-RA 的训练上。

JoyAI-RA 本身采用多源、多层级预训练框架,融合网页数据、大规模第一视角人类操作视频、仿真轨迹和真实机器人数据。EgoLive 在其中提供的是人类操作先验:它让模型接触到大量真实场景下的任务流程、手物交互和空间变化,从而帮助模型弥合“人类示范”和“机器人执行”之间的差距。

从公开结果看,融入 EgoLive 数据后,JoyAI-RA 在多个 Benchmark 上获得了验证。

  • 在 RoboTwin 2.0 中,JoyAI-RA 的平均成功率达到 90.48%;

  • 在 RoboCasa GR1 TableTop 任务中,达到 63.2%,超过 LingBot-VLA、π0.5、ABot-M0、Motus 等主流 SOTA 模型。

Benchmark 之外,更值得关注的是模型在真实业务流程中的验证效果。

近期,搭载 JoyAI-RA 的智元 G2 与睿尔曼 RealBOT 机器人正式进驻京东 MALL,承担商品上架、货品规整、杂物收纳等理货岗位的日常运营工作。在 SKU 品类复杂、环境高度非结构化的真实零售场景下,机器人单品上架成功率稳定突破 90%。

这类场景和实验室任务不同。零售门店里的商品形态复杂,货架布局会变化,物体摆放不总是规整,顾客和工作人员也会让环境变得更加动态。机器人能够在这样的环境中完成商品上架和货品规整,说明模型能力已经开始进入真实运营环节。

这也形成了一个更完整的闭环:京东从真实场景中采集第一视角人类操作数据,通过 EgoLive 完成标准化处理和多模态标注,再将这些数据用于 JoyAI-RA 训练,最终又回到京东 MALL 这样的真实场景中接受验证。

对具身智能来说,这条从真实场景中来,又回到真实场景中去的链路比单一 Benchmark 更重要。它意味着数据、模型和场景不再是割裂的,而是能够互相反馈、持续迭代。

夯实具身智能“根技术”,突围可用数据荒

从京东的布局看,EgoLive 并不是一个孤立的开源动作,它更像是京东具身智能数据体系中的一个外溢节点,也是京东构建“全球最大的物理世界运营中心”整体布局中举足轻重的一环。

很有前瞻性的一点是,EgoLive 的开源时机,正踩在具身智能行业前所未有的机遇上。

今年行业出现一个明显趋势:人形机器人正在从样机展示走向量产交付。新华网今年初的报道提到,2026 年人形机器人产业将迈入规模化放量阶段,行业主题从技术收敛切换到量产落地与商业化提速。报道还援引预测称,2026 年国内人形机器人出货量有望继续攀升。

机器人一旦进入更大规模交付,数据、场景、售后、验证都会成为瓶颈。 很多机器人公司可以做本体和算法,但未必拥有足够复杂、足够高频的真实业务场景。

京东的价值在其中尤为凸显。

不久前,京东提出构建“全球最大的物理世界运营中心”,这不是一个孤立的口号,是京东对其过去二十多年核心能力的一次重新定义。

在外界传统认知里,京东更多是一家零售公司,优势在于供应链、仓储物流和履约服务。进入 AI 时代,京东过去积累的零售、物流、供应链和履约能力,被赋予了新的含义:它们成为 AI 理解和介入物理世界的基础场景。仓储分拣、配送路径规划、门店理货、家庭服务等任务,都是高频发生的真实物理操作。

围绕 AI 时代的数据基础设施底座,京东开始建设全球最大的具身智能数据采集中心,依托零售、物流、健康、工业、外卖、家政等场景,发动内部员工和外部人员参与采集,覆盖家庭、办公室、工厂、物流、商店、餐厅、医疗、环卫等超百个细分场景。京东计划一年内积累 500 万小时人类真实场景视频数据,两年内突破 1000 万小时,并同步采集 100 万小时机器人本体数据。

宿迁具身智能数据采集社区,则是这套体系进入生活场景的一步。居民在擦桌子、叠衣服、整理收纳等日常劳动中,佩戴 JoyEgoCam 采集终端,即可记录上肢轨迹、手物交互和家居环境关系。这类数据更碎、更杂,也更接近机器人未来要面对的真实世界。

京东这套布局放到行业里看,最直接的意义,是补上具身智能最缺的真实数据。

但往更深层次理解,它把行业里分散的数据采集,推向更标准化的基础设施。现在很多数据采集还是项目制、实验室制,流程不一、标注不一、流通也难。京东把“采、存、标、训、评、仿、测”串起来,实际上是在往平台化、工程化方向走。

这对机器人企业也有现实价值。很多公司有本体、有算法,但缺少复杂、高频的真实业务场景。京东开放数据集、建设交易平台、提供采集和标注能力,相当于把自身场景能力部分释放给产业链,减少重复采集和重复验证成本。

更关键的是,它试图建立一个闭环:真实场景产生任务,采集系统沉淀数据,训练平台优化模型,机器人再回到场景中验证。这样,模型迭代就不必长期停留在实验室指标上。

这也对应了行业从展示阶段走向运营阶段的变化。当具身智能真正产业化,还是要看它能不能在仓储、零售、家庭、医疗、工业等场景长期稳定作业。如果京东这些复杂、高频、产业化的物理场景能被系统转化为训练和验证资源,也可能成为中国具身智能产业的一种场景优势。

相关论文地址:

https://arxiv.org/html/2604.23570v1

https://arxiv.org/abs/2009.13303

https://arxiv.org/abs/2110.07058

https://arxiv.org/abs/2505.11709

其他参考链接:

https://ego4d-data.org/

https://developer.nvidia.cn/flare

https://droid-dataset.github.io/

https://medium.com/@sohan.lal_54278/beyond-the-lab-how-egocentric-data-is-teaching-robots-to-see-our-world-88ef3178f202