艺恩观察:视频AI训练数据告急:公网视频"吃完了",下一批从哪来?
当Sora 2、可灵3.0、Veo 3.1等前沿视频生成模型加速迭代时,一个被行业刻意回避的问题正在浮出水面——训练数据从哪来?
OpenAI在Sora 2的系统卡里仅用41个字描述训练数据来源,未披露任何数据集名称与规模。同期,NVIDIA Cosmos亮出2000万小时、9000万亿token的训练规模,腾讯HunyuanVideo公开了亿级切片的训练流程——前沿模型跑得越快,"用什么训的"反而越说不清。
多模态数据集服务商艺恩在近日发布的行业观察中指出:对任何一家正在做视频生成或世界模型的公司来说,真正的问题不是"下一代模型要多大",而是"下一批训练数据从哪儿来"。
瓶颈一:公开数据正在见底
Epoch AI在2024年ICML论文中估算,经质量修正后的公开人类文本约300万亿token,按当前消耗速度将在2026至2032年间用完。视频领域虽无等价研究,但可反向推算:NVIDIA Cosmos的2000万小时训练语料,大致相当于YouTube全球27天的全部上传量。
公网视频不是不够多,是不够好。质量、密度、信号均不足以支撑下一代模型。Meta V-JEPA 2训练用了"100万小时以上互联网视频加少量交互数据"——前一项是已做到的规模,后一项才是真正的瓶颈。

图 1 · 前沿视频模型训练数据公开披露度对比
瓶颈二:4D与多视角数据,公网里几乎没有
世界模型阵营已将此点明。Meta LeCun在V-JEPA 2论文中指出,"以观察为主学习世界"需结合互联网视频与交互数据;斯坦福Fei-Fei Li更直言:"空间智能的数据都在我们脑子里,不像语言可直接获取。"
目前公开4D数据集规模有限——上海AI Lab的DNA-Rendering提供6750万帧多视角语料,Google Stereo4D挖出11万个4D片段——相比千万小时级2D视频,小两到三个数量级,且高度集中在人体、自动驾驶、室内机器人三个窄域。
资本已用脚投票。2026年初,Fei-Fei Li的World Labs获10亿美元融资,LeCun创立的AMI Labs完成10.3亿美元种子轮,两笔合计20亿美元,核心押注均指向——为"理解物理世界"准备数据。

图 2 · 视频训练数据的三个结构性缺口
瓶颈三:电影级数据开始被定价
带导演意图的视频正在成为稀缺资源。阿里Wan 2.2按光线、色调、构图等几十维标注训练数据;Google Veo 3红队报告显示其输出"偏电影级,常出现切镜与戏剧性运镜"——背后必有高占比电影级语料支撑。
2025年12月,迪士尼以10亿美元入股OpenAI,200余个IP角色被纳入Sora生成范围,虽仅授权"输出生成权"而非"训练权",但这是好莱坞与视频AI首次以IP+现金+股权方式将内容摆上谈判桌。
国内方面,2025年1月爱奇艺起诉MiniMax的版权案仍在审理,索赔仅10万元,但作为中国首例视频平台诉AI模型案,信号意义远超金额本身。
艺恩判断:下一步不在公网
艺恩在观察中给出明确判断:"再加10倍数据"的方向,不在公网,而在三条路——
第一条是仿真合成路线,以NVIDIA Cosmos为代表,用物理仿真与机器人采集数据替代真实视频;
第二条是精标注路线,以Wan 2.2为代表,给现有视频叠加电影级结构化标注;
第三条是IP采购路线,以迪士尼-OpenAI为代表,真金白银买入版权清晰的优质内容。
三条路有一个共同特征:垂类、有授权链、有结构化标注。 艺恩认为,这已不是数据工程问题,而是战略采购问题——决定它的不是工程团队的吞吐能力,而是组织能否搭出一条"合规可溯源+多模态标注+持续更新"的供给体系。

图 3 · 2025-2026 围绕「视频训练数据」的资本与合规节点
艺恩方面表示,其在影视综艺、社媒、电商领域有超过10年的垂类数据积累,包括2.3B+条垂类视频资产、1.2M+部影视综艺授权片,以及多机位与4D采集能力和五维稠密标注体系。在其看来,行业面临的不是"数据用完了",而是"数据该被重新定义"——下一代视频模型需要的不是更多公网视频,而是更结构化、更可溯源、更接近真实物理世界的垂类语料。
文章来源用户投稿,转载请注明出处:/hangye/62557.html
