谷歌TPU能撼动英伟达吗?前TPU工程师首次揭秘
一、"大厨"与"流水线":GPU和TPU的根本差异
节目一开始,Henry就用一个生动的厨房比喻,把GPU和TPU的架构差异讲清楚了。
GPU本质上是为游戏显卡设计的,采用SIMD(单指令多线程)架构。Henry把它比作一个厨房里同时安排了很多个大厨——"他们每个人都有自己独立的思考能力,然后独立去从冰箱里把东西拿出来,然后做完菜,最后上菜"。每个大厨独立完成整套流程:取菜、切菜、烹饪、上菜。这种模式的好处是并行计算能力极强,单张卡的性能非常出色。但代价是:每个大厨都有自己的一套节奏,等数据搬运的时候就会出现闲置的"idle period"——矩阵计算的利用率达不到理论峰值。
TPU则完全不同。它是专为机器学习矩阵计算定制的加速器——从最早的CNN到现在的Attention和Transformer,核心都是矩阵计算。Henry把TPU比作一条流水线:"不用安排那么多的大厨,但他会把大厨安排在每一个步骤上。第一个人从冰箱里把菜取出来,第二个人直接把第一个人做完的中间态结果加工传到第三个人。中间每一个步骤你可以理解成是心脏的泵血。"
这种流水线架构最关键的哲学是:TPU在硬件层面不做任何预测(prediction)。Henry说"硬件被变蠢了",所有的复杂度都在软件层(XLA编译器)预先解决。软件决定每个计算单元在每个时间点具体做什么,硬件只需要执行——不需要预测,不需要动态调度。这样就能保证"满功耗运行",几乎不存在idle period。
二、TPU Pod:系统级的设计哲学
GPU长期以来都是单卡性能的比拼,而TPU从设计之初就走了一条不同的路:系统级协同。
"TPU一直是主打一个TPU Pod,它是一个有几千张卡的一个协同的一个训练的一个状态。"Henry在节目中说,"它可以让几千张卡芯片,它用户的感觉当中是一张卡在训练。"这背后的核心技术包括ICI(Inter-Chip Interconnect,芯片间直连通信协议)和3D Torus拓扑网络。
与传统GPU集群依赖NVLink和NV Switch不同,TPU芯片之间用铜线直接连接,不需要交换机中转。Henry指出,GPU的NVLink和NV Switch"其实很烧钱,它是一种infrastructure的一种tax"。而TPU只在节点间使用少量OCS(光学交换机),通信成本大幅降低。
这种架构差异直接反映在数据中心的建造成本上。英伟达GPU集群需要大量第三方交换机来组建集群网络,这是资本支出中的一大块。而TPU的直连拓扑省掉了这笔税,通信成本远低于GPU。这就是为什么谷歌Gemini的API价格能做到OpenAI的十分之一,而Anthropic使用TPU训练后能将Claude 4.5的API价格下调67%。
三、XLA编译器——秘密武器也是最大门槛
如果TPU硬件是身体,XLA编译器就是它的大脑。但对第三方开发者来说,这个大脑也是一个黑盒。
"XLA是一个静态的一个编译器,"Henry解释道,"当你的workload是已知的,它可以在一个全局的TPU Pod的system level,做全局优化。"具体来说,XLA会做三件事:算子融合——把多个计算kernel合并成一个;内存管理——预知TPU对内存访问的偏好,自动优化数据分布;全局编排——不是单卡优化,而是整个TPU Pod的系统级编排。
但问题也很显著。"XLA是一个黑盒,"Henry坦言。虽然它内部有很多debug工具,但debug需要对硬件有深入了解,因为它把一个graph(图)级别的链条呈现给你,不是一个单个计算而是一个整体。对外部开发者来说,"对工程师的要求会更高。"
更棘手的是:PyTorch有几千个算子,如果不在TPU硬件上原生支持,性能表现就会很差。Google内部有团队在推进PyTorch和XLA的深度整合,但这条路还很长。相比之下,CUDA的开放生态、海量文档和成熟工具链,就是英伟达最深的护城河。Henry透露,大多数通过谷歌云使用TPU的客户,只能跑出50%到60%的utilization rate,但钱一分不少。
四、谁在用TPU?Anthropic、Apple和Meta的不同策略
2025年最大的TPU新闻之一,是Anthropic签下了100万颗TPU的订单,价值数百亿美元。但Henry在节目中透露了一个令人惊讶的事实:苹果其实是TPU最大的外部客户。
"用谷歌的TPU最大的团队其实不是Anthropic,虽然他们下了一个100万的订单……最大的团队其实是苹果。"2024年苹果发表论文,公开Apple Intelligence全部使用TPU训练。背后原因和人才流动有关——前Google高管将整套TPU技术栈带到了苹果。
三家大客户的使用方式也完全不同:
- Anthropic:唯一从博通直接采购TPU机架(rack)的公司,可以做底层优化,充分利用XLA的性能。有Google软件团队专门对接支持。
- Apple:通过谷歌云使用TPU,但团队有深厚的Google背景,完成了从GPU到JAX/XLA的完整软件栈迁移。
- Meta:签署数十亿美元协议租TPU跑Llama,通过谷歌云接入。因为用PyTorch(与XLA不天然兼容),主要用于offload预训练的算力压力。
Henry指出,Anthropic能用好TPU的原因是多方面的:Anthropic很多投资方是Google,两者是"相对于内循环"的关系;Anthropic的工程师技术能力非常强;而且有很多前Google背景的工程师懂XLA这套系统。
五、供应链的三重瓶颈
芯片战争不止在实验室,更在供应链。Henry详细拆解了TPU面临的三个关键瓶颈。
HBM:三巨头垄断
"HBM非常难找,一共就三家公司垄断这个生产——SK Hynix、三星和Micron。"英伟达一直是HBM最大客户,TPU长期是secondary customer。而芯片产能需要提前一到两年锁定,没有大订单就难以争取好配额。现在整个行业正在从compute bound转向memory bound,HBM决定了训练效率的上限。
CoWoS:TSMC的分配权
CoWoS(Chip-on-Wafer-on-Substrate)是TSMC的2.5D先进封装技术,HBM内存芯片和计算芯片通过它封装在一起。这个工艺只有TSMC能做。TSMC按订单量分配产能——英伟达的量最大,优先级自然最高。Google TPU此前没有外部客户时,难以锁定大额订单。
博通:议价权增长
Google TPU团队设计芯片前端(相当于画图纸),博通负责把芯片物理连接起来(后端+ICI),最终交付TSMC量产。博通做的是模数混合信号——"技术壁垒非常非常高的一个环节"。但博通的议价权越来越大,如果你非常依赖博通而没有backup,成本就很难控制。"有点像TPU和GPU的关系,一直以来TPU是GPU的一个backup。"
还有一个容易被忽视的问题:良率。GPU有阉割版本(H100降级为H800),良率不好可以降级销售。但TPU是定制芯片,不可降级,芯片性能参差不齐会导致整个系统效率下降,良率不行的芯片只能报废。TPU因为主打芯片间通信,失败率反而比GPU更高。
六、TPU的起源:一页PPT引发的自研芯片之路
2013年左右,Google首席科学家Jeff Dean演示了深度学习在语音识别上的突破性进展。Jonathan Ross(后来的Grok联合创始人,现为英伟达VP)做了一个著名的内部演示——只有两页PPT。
第一页:好消息,GPU真的是工作了,深度学习有了突破。第二页:坏消息,我们付不起这个钱。他们算了一笔账:如果所有用户给Google发三分钟的语音,Google整个数据中心的成本会翻倍——数百亿美元。
Google的结论是:既然没有合适的芯片,那就自己造。第一代TPU只是一款inference芯片——一个矩阵计算器加内存,没有更多模块。图灵奖得主Geoff Hinton也深度参与了第一代架构设计。
这是个里程碑式的决策。后来从V2开始有了训练芯片,AlphaGo击败李世石时AI算法里已经放了TPU。再后来PaLM、BERT、早期Transformer都用这套架构训练。
七、代际演进:从推荐系统到大模型的转向
Henry从2018年加入Google,从V4开始参与TPU研发,经历了从"相对轻松"到"非常volatile"的转变。
"最开始那几年其实市场上没有那么大的需求,那时候还没有大模型,没有ChatGPT,我们工作还相对比较轻松一点,因为只是针对自己的workload。"
转折点出现在V4/V5时期(约2022-2023年)。此前TPU的主要workload是Google内部的推荐和搜索排序系统。Henry参与设计了一个叫Sparsity Core的模块——专门针对推荐系统中嵌入层的稀疏计算做优化。但这牺牲了部分稠密矩阵计算的性能,让TPU在矩阵计算上看起来不如GPU。
V6开始,TPU明确转向大模型预训练,推出了训练和推理两个版本。这次转向恰好赶上了ChatGPT爆发的时间窗口。到V7 Ironwood,TPU的peak FLOPs已经接近英伟达GB200,HBM带宽也有巨大提升。而Henry参与的最后一代V8,技术细节仍然未公开。
八、ASIC的赌注:压对Transformer之后呢?
TPU本质上是一款针对大模型预训练和推理的ASIC(专用集成电路)。ASIC的核心特征是一旦设计定型就无法改变。
TPU最大的幸运是:Transformer架构是Google自己发明的,TPU从一开始就针对矩阵计算做了优化。在GPT爆发、矩阵计算需求爆炸时,TPU有了先发优势。MoE架构的兴起也在V4通过3D Torus+OCS解决了通信瓶颈。
但Henry表达了一个真实的担忧。"这个很难去评判现在。就是万一将来有一个不同的范式,它怎么去跟上GPU的步伐。"模型迭代以月为单位,而芯片设计周期最快也要两年半。如果在设计阶段压错了方向,等芯片量产时市场需求可能已经变了。
Google的应对策略是"让芯片变得更加通用"——把计算和内存模块化,适应不同范式。但Henry坦承这是一种"基于现实的compromise":如果把芯片设计得非常激进,可以在Gemini上提升30-40%的效率,但万一有变化,回去就会非常痛苦。
九、Grok/LPU:推理芯片的另一种可能
节目也谈到了近年来另一个引人注目的推理芯片玩家——Grok(已被英伟达收购)。
Grok由前Google TPU编译器团队创始人Jonathan Ross创立。Henry的评价非常精准:"Grok你可以理解成它是一家compiler的公司而不是一家芯片公司。"它的硬件比TPU更加单一,编译器在某种程度上决定了一切——可以精准到每一个cycle都由compiler确定。
Grok精准踩中了三轮时代红利:第一轮是inference市场的爆发;第二轮是ASIC的低成本优势;第三轮是2025年Agent元年的到来。Agent对延迟要求极高,如果一个任务链条中每个环节都慢一点,整体体验就会非常痛苦。Grok用SRAM而非HBM,单用户独占大量LPU资源,保证毫秒级响应。
Henry指出,Grok和TPU不是竞争关系,而是服务不同市场层级:
场景:Agent、实时语音、高频交易
设计:SRAM,单用户独占资源
客户:IBM、中东数据中心等
场景:Gemini、ChatGPT、Claude
设计:HBM,批量打包请求
要求:海量用户同时调用
十、未来格局:不是替代,是共存
节目最后,Henry和泓君总结出TPU的清晰图谱。
TPU在大规模部署(云端、海量用户、模型相对稳定)场景下完全可以挑战GPU——它的TCO更低、推理成本更可控。但在小规模部署、Agent、需要频繁迭代模型研发的场景下,GPU的通用性和CUDA生态仍然是不可替代的。
Henry在节目一开始就说过了结论:"在某些芯片条件下,TPU是完全可以挑战GPU的。"而到了节目的末尾,他的判断更加完整:
"很多人都在讨论TPU和GPU之间区别,我孰优孰劣,但我觉得未来肯定是两者并存的。包括现在所有很多大厂都在自研自家的芯片,不管是推理还是训练,我觉得你不能说GPU将来会一统江山或TPU会一统江山。我觉得这个生态是一个非常健康的生态,有定制的环节,也有通用的环节,有通用场景,也有垂类场景。将来的话是百花齐放的一个格局。"
这是一个务实而深刻的判断。DeepSeek出现之后,推理端的需求被彻底点燃——端侧、本地部署、小规模推理的需求激增。英伟达不可能吃掉整个市场的每一层。TPU作为挑战者,正在中层和上层撕开口子。
最终,这不是一个"谁会赢"的问题,而是一个"市场会怎样分层"的问题。GPU和TPU各有其最佳适用场景,定制芯片和通用芯片各有其生存空间。正如Henry所说:"我觉得也是需要同行的激励和鞭策。"