蚂蚁、京东、英伟达争相下注:这条“卖铲子”的赛道,正批量诞生隐形独角兽
如果把具身智能产业比作一场淘金热,那么数据公司就是这场热潮中卖铲子、卖牛仔裤、修铁路的人。它们的故事不如人形机器人那般吸睛,却可能是整条价值链上确定性最高的生意。
近日,艺恩数据发布了《全球具身数据市场白皮书》,白皮书聚焦具身智能浪潮下最核心的生产要素——具身数据,系统梳理了全球具身数据市场的产业现状、技术路径、竞争格局及未来趋势,为行业提供了全景式的参考坐标。并把视野扩展到全球约50家具身数据公司,并按「数据怎么来」重新梳理出一张更完整的谱系图。

图1:本系列基于《全球具身数据市场白皮书》四章框架展开
五条路线,一张谱系图
具身数据的获取,过去常被归纳为四大范式:真机遥操、便携采集、仿真合成、视频蒸馏。但随着赛道成熟,第五条路线逐渐清晰——一类公司不只采集某一种数据,而是搭建覆盖「采集硬件+数据产线+治理平台」的全链路基础设施,可称为数据基础设施层。简智、光轮、觅蜂、诺亦腾正是其中代表。
还需厘清一个常被误解的概念——egocentric(第一人称视角)数据。它并非独立的一条路线,而是一种横跨两条路径的数据视角:既可以由人主动佩戴数据手套、头戴相机采集(属便携采集),也可以从已有的第一人称视频中蒸馏(属视频蒸馏)。Meta的Project Aria、苹果的EgoDex、学界的EgoMimic,都是这一视角的代表性工作。



范式一:真机遥操与触觉
这是数据金字塔最昂贵的塔尖——动作与本体天然对齐,保真度最高,但成本与规模化难度也最高。帕西尼感知以6D触觉传感与采集工厂见长,2026年3月完成超10亿元B轮,投后估值超百亿元,比亚迪为第二大股东;诺亦腾机器人依托全球约七成份额的动捕技术,2025年12月由启明创投领投Pre-A+轮;智元机器人则以开源的AgiBot World百万真机数据集树立标杆。星海图、千寻、自变量等本体公司也凭强数据飞轮跻身其中。

范式二:便携采集
可穿戴设备与数据手套以第一人称采集,把成本压到真机遥操的约十分之一,是质量与规模之间最性感的平衡点。灵初智能以多自由度触觉手套见长,2026年披露天使轮加Pre-A轮累计20亿元,背后是国开金融、央视产业基金等「国家队」;它石智航的SenseHub一体化数采套件助其在2026年4月完成4.55亿美元Pre-A轮,刷新中国具身单轮纪录,估值约130亿元;鹿明机器人走UMI路线,2026年5月获三菱电机连续领投A1、A2轮。

范式三:仿真合成
用物理引擎加生成式模型批量「造数据」,可覆盖海量长尾场景,成本仅为真机采集的约百分之一——这是最具想象力的「数据印钞机」。光轮智能是当之无愧的标杆(详见下文);群核科技于2026年4月17日登陆港交所,成为「全球空间智能第一股」,首日大涨、市值近350亿港元;银河通用以「一周生成十亿级仿真数据」的管线,2026年3月再获25亿元、估值超200亿元。海外的World Labs(李飞飞创立)则在2026年2月正式落地10亿美元融资、估值约50亿美元。

范式四:视频蒸馏
直接从互联网与第一人称视频中蒸馏动作先验,近乎零边际成本,但缺乏动作标签、物理grounding较弱,是技术难点中的难点。枢途科技的SynaData系统把综合数采成本降到行业的千分之五;极佳视界以世界模型切入,2026年一个月内累计融资25亿元,成为国内首个世界模型百亿独角兽;星动纪元则把世界模型与端到端模型结合,2026年4月由顺丰战略领投新一轮。

第五类:数据基础设施层
除了四种获取方式,一类新公司正在浮现——它们不押注单一数据类型,而是搭建覆盖「采集硬件 + 数据产线 + 治理平台」的全链路基础设施。我们将其单列为数据基础设施层。简智机器人是其中代表:它以「Gen Data 1+x」硬件矩阵 + 「Gen ADP」数据产线,搭建「人类技能数字化 → 云端数据治理 → 机器人应用」的全链路中立基础设施。2026年6月1日,它完成由蚂蚁集团、滴滴、德联资本联合领投的连续多轮共数亿元融资,被业内称为「具身智能无本体数据领域迄今最大规模融资」——其已覆盖超 3000 名采集用户、沉淀超百万小时数据,海外收入占比超七成。
同处这一层的还有:以仿真合成定义底座的光轮智能、由智元控股并获红杉领投的觅蜂科技(MEgo 无本体采集硬件 + 数据治理引擎)、以及从动捕拆分而来的诺亦腾机器人。它们的共同点是:不押注单一数据类型,而是做「卖铲人的卖铲人」——为所有数据公司提供采集与治理的底层工具。

旗舰案例:全球首个「具身数据独角兽」
如果要在这片赛道选出一个标志性案例,光轮智能当仁不让。这家以「仿真合成」为核心的公司构建了 World / Behavior / Evaluation 三层架构,仿真数据生成成本仅为真机采集的约百分之一,2026年5月再获蚂蚁集团领投的新一轮融资。

图 2:旗舰案例——光轮智能以 SimReady 仿真合成 + RoboFinals 评测基准切入
光轮的客户名单几乎覆盖了产业链的「半壁江山」——NVIDIA、谷歌、Figure、1X、字节、智元、银河等悉数在列,年营收已破亿元。由前 NVIDIA、Cruise、蔚来自动驾驶仿真负责人谢晨创立的这家公司,用业绩验证了「仿真合成」范式不仅可规模化,更可独立估值。
巨头入场:从「买数据」到「自建飞轮」
数据的战略价值,巨头比谁都清楚。京东发布自研可穿戴采集终端 JoyEgoCam,计划发动内部超 10 万员工与外部数十万人,打造「全球规模最大」的具身数据采集中心;NVIDIA 以 Cosmos 世界模型与 GR00T、开源 Physical AI 数据集定义全球基础设施;Google DeepMind 的 Open X-Embodiment 汇聚全球34家实验室、百万级真机轨迹;Meta的Ego-Exo4D、特斯拉的Optimus纯视觉数据飞轮、字节的Seed、华为的CloudRobo、蚂蚁的灵波开源模型,各自圈地。

图 3:开放生态 vs 封闭飞轮——巨头具身数据布局的两条路线
一个耐人寻味的细节是:蚂蚁在2026年密集出手,先后领投或参投光轮、简智、星尘、星海图等多家具身数据资产,俨然成为这条赛道上最活跃的产业资本之一。当巨头亲自下场圈数据,独立数据公司的价值不降反升——因为生态越大,越需要中立、合规、可扩展的第三方数据供给。
全球50家具身数据公司完整列表
下表汇总本文梳理的全球约50家具身数据相关公司,按五条路线 + 巨头数据飞轮 + 海外数据专营分组,列出所属路线与最新融资额或估值。融资数据均标注时间,并区分「已确认」与「传闻 / 进行中」;估值多为投后或第三方盘点口径,公司间不完全可比。

巨头数据飞轮与海外数据专营公司,则构成这张谱系图的另外两极:

(注:上表合计约50家。部分本体/模型公司因拥有强数据飞轮而纳入,并在「所属路线」中加注;巨头机构按其数据布局列示,非独立数据公司。)
一份必要的边界说明
本榜单只纳入能清晰对应数据范式的具身数据公司。Scale AI、Surge、Appen、海天瑞声等通用AI数据标注公司,虽体量庞大,但属劳动密集型标注外包,并非具身数据专营,故不计入主体。此外,部分海外大额轮次仍在「进行中」——如Physical Intelligence约110亿美元的新一轮,截至本文成稿时尚未正式交割;它石智航约180亿元的新一轮亦属传闻。我们以「已确认 / 传闻」分级标注,供读者审慎判断。

图 4:四范式护城河对比(数据规模、成本、保真度、生态、标准化)
数据公司的竞争,本质上是「质量 × 规模 × 成本」三角的平衡艺术。从四种获取范式到数据基础设施层,从独立创业公司到巨头数据飞轮,这片赛道的格局仍在快速演变。但有一点已经清晰:在具身智能的下半场,得数据者得先机。
在数据公司竞争的赛道上,能否提供合规、可扩展的高质量数据,决定了一家数据公司的天花板。 作为AI时代中国垂类数据基础设施的代表,艺恩数据数据(ENDATA,NEEQ:871430)以视频、图像、文本三模态数据为核心,面向大模型与具身智能厂商,提供从采集、清洗、标注、治理到资产化的全链路数据服务。
无论你在寻找VLA-Ready的视频数据流、为大模型寻找「对的数据」,还是作为出海品牌寻找「懂中国也懂全球」的数据伙伴——艺恩数据都已准备好下一程。
艺恩数据数据针对行业痛点,推出了四类核心数据产品,旨在为开发者提供合规、可扩展的高质量数据支持:
预训练数据集(PRE-TRAINING):提供TB级多语种垂类语料,深度覆盖影视综、社媒、电商等高价值场景,为大模型预训练提供干净、合规的底座数据。
2、对齐数据(SFT / RLHF):提供高质量指令与偏好对齐数据,全力支持监督微调与人类反馈强化学习,帮助模型精准对齐真实业务意图。
3、多模态对齐(MULTIMODAL):打造视频、图像、文本三模态对齐数据,配套统一元数据Schema与多任务标签,专项服务视频理解、视频生成及世界模型训练。
4、定制化数据(CUSTOM):面向具体场景提供端到端定制采集与处理,支持私有化部署与严格的数据合规审查,满足企业级安全与版权要求。
旗舰能力:VIDEO FEEDS for VLA
面向视频原生AI与具身智能,艺恩数据以「影视综+社媒+电商」全球级视频资产为基础,配套元数据Schema与多任务标签,为视频生成、视频理解、世界模型与VLA训练提供持续、合规、可扩展的视频数据流。
2.3B+视频片段 800TB+日均带宽 120+任务族
从「数字世界」到「物理世界」,数据始终是AI能力跃迁的底层燃料。艺恩数据希望以高质量、合规、垂直的数据供给,成为这一进程中可信赖的长期伙伴。
文章来源用户投稿,转载请注明出处:/hangye/62775.html
