谷歌TPU能撼动英伟达吗？前TPU工程师首次揭秘

硅谷101 · E228 · 2026年3月
嘉宾：Henry（谷歌前TPU工程师） · 主持：泓君 · 时长：1h7m

Gemini 3 登顶榜首 2025年训练Gemini 3的不是英伟达GPU，而是谷歌自研TPU。AI性能王座背后的芯片变了。

万亿市场格局重塑 Anthropic签下100万颗TPU（数百亿美元），Meta签数十亿美元协议，苹果全线用TPU训练。

前TPU工程师首次揭秘 Henry深度参与V7 Ironwood和V8研发，从硬件架构到供应链全景剖析。

推理成本暴降 谷歌API成本曾仅为OpenAI的十分之一，Anthropic 4.5降价67%——背后是TPU的TCO优势。

ASIC vs 通用GPU TPU赌对Transformer才有今天。但如果模型范式改变，定制芯片的灵活性就是致命伤。

供应链瓶颈全解析 HBM三巨头垄断、CoWoS产能、TSMC分配权、博通议价权——芯片战争不止在实验室。

一、"大厨"与"流水线"：GPU和TPU的根本差异

节目一开始，Henry就用一个生动的厨房比喻，把GPU和TPU的架构差异讲清楚了。

GPU本质上是为游戏显卡设计的，采用SIMD（单指令多线程）架构。Henry把它比作一个厨房里同时安排了很多个大厨——"他们每个人都有自己独立的思考能力，然后独立去从冰箱里把东西拿出来，然后做完菜，最后上菜"。每个大厨独立完成整套流程：取菜、切菜、烹饪、上菜。这种模式的好处是并行计算能力极强，单张卡的性能非常出色。但代价是：每个大厨都有自己的一套节奏，等数据搬运的时候就会出现闲置的"idle period"——矩阵计算的利用率达不到理论峰值。

TPU则完全不同。它是专为机器学习矩阵计算定制的加速器——从最早的CNN到现在的Attention和Transformer，核心都是矩阵计算。Henry把TPU比作一条流水线："不用安排那么多的大厨，但他会把大厨安排在每一个步骤上。第一个人从冰箱里把菜取出来，第二个人直接把第一个人做完的中间态结果加工传到第三个人。中间每一个步骤你可以理解成是心脏的泵血。"

这种流水线架构最关键的哲学是：TPU在硬件层面不做任何预测（prediction）。Henry说"硬件被变蠢了"，所有的复杂度都在软件层（XLA编译器）预先解决。软件决定每个计算单元在每个时间点具体做什么，硬件只需要执行——不需要预测，不需要动态调度。这样就能保证"满功耗运行"，几乎不存在idle period。

二、TPU Pod：系统级的设计哲学

GPU长期以来都是单卡性能的比拼，而TPU从设计之初就走了一条不同的路：系统级协同。

"TPU一直是主打一个TPU Pod，它是一个有几千张卡的一个协同的一个训练的一个状态。"Henry在节目中说，"它可以让几千张卡芯片，它用户的感觉当中是一张卡在训练。"这背后的核心技术包括ICI（Inter-Chip Interconnect，芯片间直连通信协议）和3D Torus拓扑网络。

与传统GPU集群依赖NVLink和NV Switch不同，TPU芯片之间用铜线直接连接，不需要交换机中转。Henry指出，GPU的NVLink和NV Switch"其实很烧钱，它是一种infrastructure的一种tax"。而TPU只在节点间使用少量OCS（光学交换机），通信成本大幅降低。

这种架构差异直接反映在数据中心的建造成本上。英伟达GPU集群需要大量第三方交换机来组建集群网络，这是资本支出中的一大块。而TPU的直连拓扑省掉了这笔税，通信成本远低于GPU。这就是为什么谷歌Gemini的API价格能做到OpenAI的十分之一，而Anthropic使用TPU训练后能将Claude 4.5的API价格下调67%。

三、XLA编译器——秘密武器也是最大门槛

如果TPU硬件是身体，XLA编译器就是它的大脑。但对第三方开发者来说，这个大脑也是一个黑盒。

"XLA是一个静态的一个编译器，"Henry解释道，"当你的workload是已知的，它可以在一个全局的TPU Pod的system level，做全局优化。"具体来说，XLA会做三件事：算子融合——把多个计算kernel合并成一个；内存管理——预知TPU对内存访问的偏好，自动优化数据分布；全局编排——不是单卡优化，而是整个TPU Pod的系统级编排。

但问题也很显著。"XLA是一个黑盒，"Henry坦言。虽然它内部有很多debug工具，但debug需要对硬件有深入了解，因为它把一个graph（图）级别的链条呈现给你，不是一个单个计算而是一个整体。对外部开发者来说，"对工程师的要求会更高。"

更棘手的是：PyTorch有几千个算子，如果不在TPU硬件上原生支持，性能表现就会很差。Google内部有团队在推进PyTorch和XLA的深度整合，但这条路还很长。相比之下，CUDA的开放生态、海量文档和成熟工具链，就是英伟达最深的护城河。Henry透露，大多数通过谷歌云使用TPU的客户，只能跑出50%到60%的utilization rate，但钱一分不少。

四、谁在用TPU？Anthropic、Apple和Meta的不同策略

2025年最大的TPU新闻之一，是Anthropic签下了100万颗TPU的订单，价值数百亿美元。但Henry在节目中透露了一个令人惊讶的事实：苹果其实是TPU最大的外部客户。

"用谷歌的TPU最大的团队其实不是Anthropic，虽然他们下了一个100万的订单……最大的团队其实是苹果。"2024年苹果发表论文，公开Apple Intelligence全部使用TPU训练。背后原因和人才流动有关——前Google高管将整套TPU技术栈带到了苹果。

三家大客户的使用方式也完全不同：

Anthropic：唯一从博通直接采购TPU机架（rack）的公司，可以做底层优化，充分利用XLA的性能。有Google软件团队专门对接支持。
Apple：通过谷歌云使用TPU，但团队有深厚的Google背景，完成了从GPU到JAX/XLA的完整软件栈迁移。
Meta：签署数十亿美元协议租TPU跑Llama，通过谷歌云接入。因为用PyTorch（与XLA不天然兼容），主要用于offload预训练的算力压力。

Henry指出，Anthropic能用好TPU的原因是多方面的：Anthropic很多投资方是Google，两者是"相对于内循环"的关系；Anthropic的工程师技术能力非常强；而且有很多前Google背景的工程师懂XLA这套系统。

五、供应链的三重瓶颈

芯片战争不止在实验室，更在供应链。Henry详细拆解了TPU面临的三个关键瓶颈。

HBM：三巨头垄断

"HBM非常难找，一共就三家公司垄断这个生产——SK Hynix、三星和Micron。"英伟达一直是HBM最大客户，TPU长期是secondary customer。而芯片产能需要提前一到两年锁定，没有大订单就难以争取好配额。现在整个行业正在从compute bound转向memory bound，HBM决定了训练效率的上限。

CoWoS：TSMC的分配权

CoWoS（Chip-on-Wafer-on-Substrate）是TSMC的2.5D先进封装技术，HBM内存芯片和计算芯片通过它封装在一起。这个工艺只有TSMC能做。TSMC按订单量分配产能——英伟达的量最大，优先级自然最高。Google TPU此前没有外部客户时，难以锁定大额订单。

博通：议价权增长

Google TPU团队设计芯片前端（相当于画图纸），博通负责把芯片物理连接起来（后端+ICI），最终交付TSMC量产。博通做的是模数混合信号——"技术壁垒非常非常高的一个环节"。但博通的议价权越来越大，如果你非常依赖博通而没有backup，成本就很难控制。"有点像TPU和GPU的关系，一直以来TPU是GPU的一个backup。"

还有一个容易被忽视的问题：良率。GPU有阉割版本（H100降级为H800），良率不好可以降级销售。但TPU是定制芯片，不可降级，芯片性能参差不齐会导致整个系统效率下降，良率不行的芯片只能报废。TPU因为主打芯片间通信，失败率反而比GPU更高。

六、TPU的起源：一页PPT引发的自研芯片之路

2013年左右，Google首席科学家Jeff Dean演示了深度学习在语音识别上的突破性进展。Jonathan Ross（后来的Grok联合创始人，现为英伟达VP）做了一个著名的内部演示——只有两页PPT。

第一页：好消息，GPU真的是工作了，深度学习有了突破。第二页：坏消息，我们付不起这个钱。他们算了一笔账：如果所有用户给Google发三分钟的语音，Google整个数据中心的成本会翻倍——数百亿美元。

Google的结论是：既然没有合适的芯片，那就自己造。第一代TPU只是一款inference芯片——一个矩阵计算器加内存，没有更多模块。图灵奖得主Geoff Hinton也深度参与了第一代架构设计。

这是个里程碑式的决策。后来从V2开始有了训练芯片，AlphaGo击败李世石时AI算法里已经放了TPU。再后来PaLM、BERT、早期Transformer都用这套架构训练。

七、代际演进：从推荐系统到大模型的转向

Henry从2018年加入Google，从V4开始参与TPU研发，经历了从"相对轻松"到"非常volatile"的转变。

"最开始那几年其实市场上没有那么大的需求，那时候还没有大模型，没有ChatGPT，我们工作还相对比较轻松一点，因为只是针对自己的workload。"

转折点出现在V4/V5时期（约2022-2023年）。此前TPU的主要workload是Google内部的推荐和搜索排序系统。Henry参与设计了一个叫Sparsity Core的模块——专门针对推荐系统中嵌入层的稀疏计算做优化。但这牺牲了部分稠密矩阵计算的性能，让TPU在矩阵计算上看起来不如GPU。

V6开始，TPU明确转向大模型预训练，推出了训练和推理两个版本。这次转向恰好赶上了ChatGPT爆发的时间窗口。到V7 Ironwood，TPU的peak FLOPs已经接近英伟达GB200，HBM带宽也有巨大提升。而Henry参与的最后一代V8，技术细节仍然未公开。

八、ASIC的赌注：压对Transformer之后呢？

TPU本质上是一款针对大模型预训练和推理的ASIC（专用集成电路）。ASIC的核心特征是一旦设计定型就无法改变。

TPU最大的幸运是：Transformer架构是Google自己发明的，TPU从一开始就针对矩阵计算做了优化。在GPT爆发、矩阵计算需求爆炸时，TPU有了先发优势。MoE架构的兴起也在V4通过3D Torus+OCS解决了通信瓶颈。

但Henry表达了一个真实的担忧。"这个很难去评判现在。就是万一将来有一个不同的范式，它怎么去跟上GPU的步伐。"模型迭代以月为单位，而芯片设计周期最快也要两年半。如果在设计阶段压错了方向，等芯片量产时市场需求可能已经变了。

Google的应对策略是"让芯片变得更加通用"——把计算和内存模块化，适应不同范式。但Henry坦承这是一种"基于现实的compromise"：如果把芯片设计得非常激进，可以在Gemini上提升30-40%的效率，但万一有变化，回去就会非常痛苦。

九、Grok/LPU：推理芯片的另一种可能

节目也谈到了近年来另一个引人注目的推理芯片玩家——Grok（已被英伟达收购）。

Grok由前Google TPU编译器团队创始人Jonathan Ross创立。Henry的评价非常精准："Grok你可以理解成它是一家compiler的公司而不是一家芯片公司。"它的硬件比TPU更加单一，编译器在某种程度上决定了一切——可以精准到每一个cycle都由compiler确定。

Grok精准踩中了三轮时代红利：第一轮是inference市场的爆发；第二轮是ASIC的低成本优势；第三轮是2025年Agent元年的到来。Agent对延迟要求极高，如果一个任务链条中每个环节都慢一点，整体体验就会非常痛苦。Grok用SRAM而非HBM，单用户独占大量LPU资源，保证毫秒级响应。

Henry指出，Grok和TPU不是竞争关系，而是服务不同市场层级：

Grok LPU：低延迟
场景：Agent、实时语音、高频交易
设计：SRAM，单用户独占资源
客户：IBM、中东数据中心等

Google TPU：高吞吐
场景：Gemini、ChatGPT、Claude
设计：HBM，批量打包请求
要求：海量用户同时调用

十、未来格局：不是替代，是共存

节目最后，Henry和泓君总结出TPU的清晰图谱。

TPU在大规模部署（云端、海量用户、模型相对稳定）场景下完全可以挑战GPU——它的TCO更低、推理成本更可控。但在小规模部署、Agent、需要频繁迭代模型研发的场景下，GPU的通用性和CUDA生态仍然是不可替代的。

Henry在节目一开始就说过了结论："在某些芯片条件下，TPU是完全可以挑战GPU的。"而到了节目的末尾，他的判断更加完整：

"很多人都在讨论TPU和GPU之间区别，我孰优孰劣，但我觉得未来肯定是两者并存的。包括现在所有很多大厂都在自研自家的芯片，不管是推理还是训练，我觉得你不能说GPU将来会一统江山或TPU会一统江山。我觉得这个生态是一个非常健康的生态，有定制的环节，也有通用的环节，有通用场景，也有垂类场景。将来的话是百花齐放的一个格局。"

这是一个务实而深刻的判断。DeepSeek出现之后，推理端的需求被彻底点燃——端侧、本地部署、小规模推理的需求激增。英伟达不可能吃掉整个市场的每一层。TPU作为挑战者，正在中层和上层撕开口子。

最终，这不是一个"谁会赢"的问题，而是一个"市场会怎样分层"的问题。GPU和TPU各有其最佳适用场景，定制芯片和通用芯片各有其生存空间。正如Henry所说："我觉得也是需要同行的激励和鞭策。"

核心金句

"在全局TPU Pod的system level做一个全局优化" — Henry解释XLA的核心价值

"把它把硬件变得更蠢了一点……相当于它是一个机械式的劳作，软件那边帮你把所有complexity都给处理掉" — TPU设计哲学的本质

"在某些限定的条件下，如果一旦满足这些限定条件，我觉得TPU是完全可以挑战GPU的——大规模部署" — Henry的核心结论

"Grok你可以理解成它是一家compiler的公司而不是一家芯片公司" — 精准概括Grok的定位

"未来肯定是两者并存的……我觉得将来的话是百花齐放的一个格局" — GPU和TPU不是替代关系，是共存关系

"我觉得也是需要同行的激励和鞭策" — 为什么TPU的崛起对行业是好事