134. 【数据的综述】

新时代的石油、历史、版图、数据金字塔、定价与Recipe

谢晨（Steve）· 光轮智能创始人兼CEO · 2026年3月 · 2小时38分

算力、算法、数据——驱动人工智能的三驾马车中，数据或许是最被低估的那一架。2026年，当大语言模型面临数据撞墙、具身智能仍在数据荒漠中跋涉时，「商业访谈录」邀请光轮智能创始人兼CEO谢晨（Steve），试图用一期节目完成一次关于AI数据产业的完整综述。

谢晨的履历本身就是一个不断试错、最终找到方向的故事：北大物理（从年级110名拼到前五）、哥大商学院量化金融博士、Jet.com电商定价AI负责人、Cruise自动驾驶仿真负责人、英伟达自动驾驶仿真、蔚来自动驾驶仿真——每一次跳跃都来自对"什么是我真正能做出最大贡献的地方"的追问。最终，他在2023年创立光轮智能，专注用仿真和合成数据为具身智能产业打造数据引擎。

为什么这期值得听

数据 ≈ 教育

谢晨提出"数据对于智能=教育对于人"的第一性框架，把数据产业定位为教育产业——从静态填鸭到因材施教

数据金字塔

真机数据（顶）→ 仿真（中）→ 人类第一视角+互联网（底），以仿真为中心的闭环

LLM 60分 vs 机器人 <0.6分

大模型预训练已到顶/后训练在路上；具身数据几乎为零，差两个数量级

仿真 = 必备条件

没有仿真，具身智能做不成——从加速器升维为先决条件

五家角逐 + 中美分化

字节/阿里/OpenAI/DeepMind/英伟达竞争机器人大脑；美国大脑强，中国本体强

最好的数据 = 先失败再成功

最反直觉的发现：完美数据不如"犯错→纠错"的数据更有效

一、数据为什么是一种"教育"

谢晨从第一性原理出发，给出了一个简洁而有力的类比：

"如果从第一性原理上去思考的话，我其实认为数据可能应该跟人的教育的行业去类比——数据对于模型、对于智能，有点类似于教育行业对于人的学习。" — 谢晨定义数据问题的核心框架

他认为，知识对于人的智能是第一性需求，同理，数据对于AI的智能也是如此。顺着这个类比，他梳理了数据产业的四个演进阶段，每个阶段对应一种教育模式：

静态数据集时代（ImageNet） → 一次性填鸭式教育。李飞飞定义了AI数据——给定图片和正确标注，这就是"标准答案"。
工业化生产时代（Scale AI） → 量贩式教育。工厂级的大规模人力运营，管控质量、效率和交付时间线。
反馈驱动时代（RLHF） → 师者传道授业。专家出题→发现弱点→针对性教学→再出更难的题。Data Foundry，不是Factory。
系统驱动时代（Data Engine） → 以系统为中心的规模化私教。仿真引擎放大人的经验，评测驱动迭代。这正是光轮智能所在的阶段。

二、数据金字塔：具身智能的数据架构

具身智能的数据结构与自动驾驶有本质区别。自动驾驶的数据闭环是"本体驱动的"——特斯拉部署了上百万辆车，车采回来的数据训练云端大脑，大脑变好再OTA回车端。但机器人没有上百万台部署在真实世界中自动执行任务。

李飞飞的学生朱易可教授提出的"数据金字塔"，为具身智能提供了新的数据架构：

🔺 顶：真机遥操作数据
最准确、最好用，但最难规模化——无法在不同场景快速部署成千上万台机器人。

🟡 中 + 🟢 底：仿真 + 人类第一视角
不依赖机器人本体，可以规模化采集。仿真是可交互的3D环境，人类第一视角是把人当成"另一种形态的机器人"来采集数据。

谢晨在实践中发现了一个关键修正：数据金字塔不是三层独立结构，而是一个以仿真为中心的闭环。人类第一视角视频通过 real-to-sim 被提取为物理世界、任务和评价标准，注入仿真环境；仿真的输出又通过与真机评测的对标来缩小 sim-to-real gap。

三、LLM vs 机器人：60分对0.6分

当被问到"如果足够多的数据是100分，大语言模型和机器人各得几分"，谢晨给出的数字令人印象深刻：

"大语言模型可能现在到了60分……但是对于具身来讲，假设100万个机器人所回来的数据是一个起点，这个起点可能都不是100分，是一个60分。我觉得现在都没有一万台机器人……可能0.6分都不到。" — 谢晨量化两个领域的数据差距

为什么差距这么大？谢晨分析了两端的问题：

预训练端：具身缺乏足够的物理世界交互数据。它需要的不只是视频，还包括物理场景、可交互的3D资产（电脑、咖啡杯……）、人类操作的经验传授（如何抓取、用什么力度）、以及相应的评价标准。

评测端：这是很多人没想到的。自动驾驶有影子模式（Shadow Mode）——算法在车端静默运行，与司机操作对比，自动发现"错在哪"。大语言模型通过用户反馈获得免费评测。但机器人两者都没有。唯一的出路是仿真。

近三个月的转折信号：谢晨透露，过去三个月，所有顶级大模型团队——包括之前坚决的"真机派"——都开始大规模采购仿真数据和仿真的规模化评测。他们遇到了共同的瓶颈：无法规模化评测。

四、最好的数据：先失败，再成功

这是整个访谈中最反直觉的洞察。

"其实最有效的数据是先失败再成功的数据。……有点像人的学习——失败了以后再成功的经验，往往是最宝贵的。" — 谢晨重新定义数据质量

光轮最早的客户要求的是"完美的数据"——机器人流畅地做好一个披萨。但通过和客户共同迭代发现，出错再纠正的数据对模型提升更大。做披萨时蘑菇没抓牢掉到桌上、再捡起来放回去——这种"负样本"或"纠正数据"，反而比完美演示更有效。

这跟传统的自动驾驶标注完全不同。旧时代的数据是"正确的框+标签"，有标准答案。新时代的数据更像人的经验——多样性的分布、错误中的学习、没有唯一正确解。一条"有失误但修正了"的操作轨迹，价格可以达到几百到上千人民币/小时。

五、谁在角逐机器人大脑

当被问到"谁变得更激进了"，谢晨直接点名：

"这就是五家角逐机器人大脑的团队。" —— 字节、阿里、OpenAI、DeepMind、英伟达

他还补了一句："π（Pi）也应该属于这一类"——它更像一个 frontier lab 而不是机器人公司。

谢晨观察到一个重要的分化趋势：大模型团队追求 zero-shot 泛化，用最简单的本体（机械臂夹爪）验证智能，数据来源是本体无关的仿真和人类数据；机器人公司关注具体场景落地，复杂本体（足式、灵巧手），数据来源是真机采集。

在 Waymo vs Tesla 的类比上，谢晨认为具身的终局更可能是一个四方生态系统：

大脑公司（大模型团队，提供泛化能力）+ 数据公司（光轮等，提供评测驱动数据引擎）+ 本体公司（宇树、Figure等，做稳定的可量产硬件）+ 场景公司（OEM、医疗集团、农业公司，有真正的落地场景）

他特别看好宇树（Unitree）——"它的区分度最鲜明，坚定地把本体做好，不和大脑公司竞争"。而对智元，他评价"从 day one 就想得很清楚，商业化走得最好"。

六、中美分化：美国大脑强，中国本体强

谢晨的判断是：美国在大脑上领先（OpenAI、DeepMind、英伟达拥有大几万张卡的基础设施和世界模型能力），中国在本体上领先（宇树、智元等的量产和成本控制能力）。

但他对中国大脑追上来持乐观态度：

"国内的大模型能力是极高的——千问现在是可能最好的开源大模型。他们在这做的决心足够高。" — 谢晨谈国内大模型团队转资源到具身

一个重要信号是：过去小一年时间，国内大厂（字节、阿里）开始把资源和精力从大语言模型主战场腾出来，投入到具身智能。时机的原因有二：大模型格局相对明确，"手可以腾出来了"；行业逐步想清楚——如果数据的核心是本体无关的数据（仿真+人类数据），那这恰恰是大模型公司的天然机会。

七、世界模型、VLA、LLM：三种大脑的共演

谢晨清晰地区分了三个易混淆的概念：

大语言模型（LLM）是数字世界的大脑，已有一定世界模型雏形但缺乏物理理解；世界模型是云端的物理大脑，理解+预测物理世界，不需要行动能力，可以成为VLA的基座；VLA（视觉-语言-行动模型）是端侧的物理大脑，实际操控机器人，需要行动数据。

三者的训练基础设施和底层基座正在趋同。Behavior Challenge——李飞飞团队基于仿真打造的最难具身评测集（100道题，最高分26%）——有趣地揭示了这种趋同：同一套benchmark既可以评价VLA，也可以评价世界模型。评价标准越一致，三者越可能走向融合。

八、从 Data Factory 到 Data Engine

谢晨对于"数据工厂"这个标签有自己的态度：

"data factory 我觉得它是一个偏工厂，缺乏相应的技术、缺乏相应的系统，且它不是反馈驱动的。我认为 data engine 是一个反馈驱动的学习引擎。" — 谢晨主动升维自己的定义

光轮目前的团队约100人，以工程技术为主。工作流程包括四个核心模块：

物理资产层：自研非刚体物理计算器（工业场景的线缆插拔需要这个），物理测量工厂用机械臂自动测力学参数；数据采集层：人为驱动的遥操作（质量最高）+ 算法驱动的自动采集（规模化最强）；标注层：大模型自动标注 + 人在环质检；评测管线：真实→仿真（real2sim）+ 仿真对标真实（sim2real），确保评分的相关性。

九、AI 终局：数据工厂消失，仿真环境永生

在被问到"数据问题什么时候会彻底不重要"时，谢晨的回答经历了从"15-20年后"到"可能永远不会"的转变。他的核心洞察来自对人的类比：

越有能力的人越爱学习——马斯克每天涉猎的数据量远超普通人。当AI达到诺贝尔奖水平，已经没有几个人能教它。那时它需要的不再是"数据"，而是一个环境和一套成功标准，在仿真的物理世界中自我对弈、自我修炼——就像爱因斯坦做思考实验。

"到终局的时候很有可能，所有人都不用我的数据，但都用我仿真的环境，在里头用RL不断地修炼内功。" — 谢晨对光轮终极价值的展望

这让人联想到马斯克说的"咱们人可能就在一个仿真里头"。在这个意义上，光轮的终局可能不是一家数据公司，而是一家"AI的教育基础设施"公司——提供的是思考实验所需的物理世界、交互环境和评价标准。

核心金句

"数据可能应该跟人的教育的行业去类比——数据对于模型、对于智能，有点类似于教育行业对于人的学习。" — 谢晨定义数据的第一性原理

"最有效的数据是先失败再成功的数据。……有点像人的学习——失败了以后再成功的经验，往往是最宝贵的。" — 对数据质量的反直觉发现

"仿真对于机器人，它是一个必备条件。没有仿真，这件事肯定做不成。" — 仿真从加速器升维为先决条件

"大语言模型可能到了60分，具身可能0.6分都不到。机器人的数据收集比大语言模型是结构性的难，可能几个数量级的难。" — 量化两个领域的数据鸿沟

"不能说是知识即模型，应该是一个不断提升的系统级能力。小孩的学习看画本就够了，但马斯克需要更高阶的知识和信号。" — 反驳"数据即模型"论

"这个私教不应该是以人为中心的，它应该是以系统为中心的，只有这样才可以提供足够规模化的言传身教。" — 从 human-centered 到 system-centered