134. 【数据的综述】
算力、算法、数据——驱动人工智能的三驾马车中,数据或许是最被低估的那一架。2026年,当大语言模型面临数据撞墙、具身智能仍在数据荒漠中跋涉时,「商业访谈录」邀请光轮智能创始人兼CEO谢晨(Steve),试图用一期节目完成一次关于AI数据产业的完整综述。
谢晨的履历本身就是一个不断试错、最终找到方向的故事:北大物理(从年级110名拼到前五)、哥大商学院量化金融博士、Jet.com电商定价AI负责人、Cruise自动驾驶仿真负责人、英伟达自动驾驶仿真、蔚来自动驾驶仿真——每一次跳跃都来自对"什么是我真正能做出最大贡献的地方"的追问。最终,他在2023年创立光轮智能,专注用仿真和合成数据为具身智能产业打造数据引擎。
为什么这期值得听
一、数据为什么是一种"教育"
谢晨从第一性原理出发,给出了一个简洁而有力的类比:
"如果从第一性原理上去思考的话,我其实认为数据可能应该跟人的教育的行业去类比——数据对于模型、对于智能,有点类似于教育行业对于人的学习。" — 谢晨定义数据问题的核心框架
他认为,知识对于人的智能是第一性需求,同理,数据对于AI的智能也是如此。顺着这个类比,他梳理了数据产业的四个演进阶段,每个阶段对应一种教育模式:
- 静态数据集时代(ImageNet) → 一次性填鸭式教育。李飞飞定义了AI数据——给定图片和正确标注,这就是"标准答案"。
- 工业化生产时代(Scale AI) → 量贩式教育。工厂级的大规模人力运营,管控质量、效率和交付时间线。
- 反馈驱动时代(RLHF) → 师者传道授业。专家出题→发现弱点→针对性教学→再出更难的题。Data Foundry,不是Factory。
- 系统驱动时代(Data Engine) → 以系统为中心的规模化私教。仿真引擎放大人的经验,评测驱动迭代。这正是光轮智能所在的阶段。
二、数据金字塔:具身智能的数据架构
具身智能的数据结构与自动驾驶有本质区别。自动驾驶的数据闭环是"本体驱动的"——特斯拉部署了上百万辆车,车采回来的数据训练云端大脑,大脑变好再OTA回车端。但机器人没有上百万台部署在真实世界中自动执行任务。
李飞飞的学生朱易可教授提出的"数据金字塔",为具身智能提供了新的数据架构:
最准确、最好用,但最难规模化——无法在不同场景快速部署成千上万台机器人。
不依赖机器人本体,可以规模化采集。仿真是可交互的3D环境,人类第一视角是把人当成"另一种形态的机器人"来采集数据。
谢晨在实践中发现了一个关键修正:数据金字塔不是三层独立结构,而是一个以仿真为中心的闭环。人类第一视角视频通过 real-to-sim 被提取为物理世界、任务和评价标准,注入仿真环境;仿真的输出又通过与真机评测的对标来缩小 sim-to-real gap。
三、LLM vs 机器人:60分对0.6分
当被问到"如果足够多的数据是100分,大语言模型和机器人各得几分",谢晨给出的数字令人印象深刻:
"大语言模型可能现在到了60分……但是对于具身来讲,假设100万个机器人所回来的数据是一个起点,这个起点可能都不是100分,是一个60分。我觉得现在都没有一万台机器人……可能0.6分都不到。" — 谢晨量化两个领域的数据差距
为什么差距这么大?谢晨分析了两端的问题:
预训练端:具身缺乏足够的物理世界交互数据。它需要的不只是视频,还包括物理场景、可交互的3D资产(电脑、咖啡杯……)、人类操作的经验传授(如何抓取、用什么力度)、以及相应的评价标准。
评测端:这是很多人没想到的。自动驾驶有影子模式(Shadow Mode)——算法在车端静默运行,与司机操作对比,自动发现"错在哪"。大语言模型通过用户反馈获得免费评测。但机器人两者都没有。唯一的出路是仿真。
四、最好的数据:先失败,再成功
这是整个访谈中最反直觉的洞察。
"其实最有效的数据是先失败再成功的数据。……有点像人的学习——失败了以后再成功的经验,往往是最宝贵的。" — 谢晨重新定义数据质量
光轮最早的客户要求的是"完美的数据"——机器人流畅地做好一个披萨。但通过和客户共同迭代发现,出错再纠正的数据对模型提升更大。做披萨时蘑菇没抓牢掉到桌上、再捡起来放回去——这种"负样本"或"纠正数据",反而比完美演示更有效。
这跟传统的自动驾驶标注完全不同。旧时代的数据是"正确的框+标签",有标准答案。新时代的数据更像人的经验——多样性的分布、错误中的学习、没有唯一正确解。一条"有失误但修正了"的操作轨迹,价格可以达到几百到上千人民币/小时。
五、谁在角逐机器人大脑
当被问到"谁变得更激进了",谢晨直接点名:
"这就是五家角逐机器人大脑的团队。" —— 字节、阿里、OpenAI、DeepMind、英伟达
他还补了一句:"π(Pi)也应该属于这一类"——它更像一个 frontier lab 而不是机器人公司。
谢晨观察到一个重要的分化趋势:大模型团队追求 zero-shot 泛化,用最简单的本体(机械臂夹爪)验证智能,数据来源是本体无关的仿真和人类数据;机器人公司关注具体场景落地,复杂本体(足式、灵巧手),数据来源是真机采集。
在 Waymo vs Tesla 的类比上,谢晨认为具身的终局更可能是一个四方生态系统:
他特别看好宇树(Unitree)——"它的区分度最鲜明,坚定地把本体做好,不和大脑公司竞争"。而对智元,他评价"从 day one 就想得很清楚,商业化走得最好"。
六、中美分化:美国大脑强,中国本体强
谢晨的判断是:美国在大脑上领先(OpenAI、DeepMind、英伟达拥有大几万张卡的基础设施和世界模型能力),中国在本体上领先(宇树、智元等的量产和成本控制能力)。
但他对中国大脑追上来持乐观态度:
"国内的大模型能力是极高的——千问现在是可能最好的开源大模型。他们在这做的决心足够高。" — 谢晨谈国内大模型团队转资源到具身
一个重要信号是:过去小一年时间,国内大厂(字节、阿里)开始把资源和精力从大语言模型主战场腾出来,投入到具身智能。时机的原因有二:大模型格局相对明确,"手可以腾出来了";行业逐步想清楚——如果数据的核心是本体无关的数据(仿真+人类数据),那这恰恰是大模型公司的天然机会。
七、世界模型、VLA、LLM:三种大脑的共演
谢晨清晰地区分了三个易混淆的概念:
大语言模型(LLM)是数字世界的大脑,已有一定世界模型雏形但缺乏物理理解;世界模型是云端的物理大脑,理解+预测物理世界,不需要行动能力,可以成为VLA的基座;VLA(视觉-语言-行动模型)是端侧的物理大脑,实际操控机器人,需要行动数据。
三者的训练基础设施和底层基座正在趋同。Behavior Challenge——李飞飞团队基于仿真打造的最难具身评测集(100道题,最高分26%)——有趣地揭示了这种趋同:同一套benchmark既可以评价VLA,也可以评价世界模型。评价标准越一致,三者越可能走向融合。
八、从 Data Factory 到 Data Engine
谢晨对于"数据工厂"这个标签有自己的态度:
"data factory 我觉得它是一个偏工厂,缺乏相应的技术、缺乏相应的系统,且它不是反馈驱动的。我认为 data engine 是一个反馈驱动的学习引擎。" — 谢晨主动升维自己的定义
光轮目前的团队约100人,以工程技术为主。工作流程包括四个核心模块:
物理资产层:自研非刚体物理计算器(工业场景的线缆插拔需要这个),物理测量工厂用机械臂自动测力学参数;数据采集层:人为驱动的遥操作(质量最高)+ 算法驱动的自动采集(规模化最强);标注层:大模型自动标注 + 人在环质检;评测管线:真实→仿真(real2sim)+ 仿真对标真实(sim2real),确保评分的相关性。
九、AI 终局:数据工厂消失,仿真环境永生
在被问到"数据问题什么时候会彻底不重要"时,谢晨的回答经历了从"15-20年后"到"可能永远不会"的转变。他的核心洞察来自对人的类比:
越有能力的人越爱学习——马斯克每天涉猎的数据量远超普通人。当AI达到诺贝尔奖水平,已经没有几个人能教它。那时它需要的不再是"数据",而是一个环境和一套成功标准,在仿真的物理世界中自我对弈、自我修炼——就像爱因斯坦做思考实验。
"到终局的时候很有可能,所有人都不用我的数据,但都用我仿真的环境,在里头用RL不断地修炼内功。" — 谢晨对光轮终极价值的展望
这让人联想到马斯克说的"咱们人可能就在一个仿真里头"。在这个意义上,光轮的终局可能不是一家数据公司,而是一家"AI的教育基础设施"公司——提供的是思考实验所需的物理世界、交互环境和评价标准。