金宝搏188入口CUDA被撕开第一道口|千术光盘|子!谷歌TPUv7干翻英伟达
【新智元导读】当谷歌不再只满足于「TPU自己用」ღ★,TPU摇身一变成了英伟达王座下最锋利的一把刀ღ★!CUDA护城河还能守住吗?读完这篇SemiAnalysis的分析ღ★,你或许会第一次从「算力账本」的视角ღ★,看懂谷歌暗藏的杀招ღ★。
尤其是TPUv7更是人们讨论关注的焦点千术光盘ღ★,这款专门为AI设计的芯片是否能够打破英伟达多年来的GPU形成的垄断?
众所周知ღ★,SemiAnalysis是一家在科技界ღ★,尤其是半导体和人工智能领域极具影响力的精品研究与咨询公司ღ★。
它以硬核ღ★、深度的数据分析著称千术光盘ღ★,不同于泛泛而谈的科技媒体金宝搏188入口ღ★,它更像是一个服务于华尔街投资者ღ★、芯片巨头和AI从业者的「行业智库」千术光盘ღ★。
谷歌打破长期以来的内部自用惯例ღ★,开始向Anthropic等外部客户大规模出售TPU硬件及算力ღ★,后者已部署超过1GW的TPU集群ღ★。
尽管在单芯片理论参数上TPU未必碾压英伟达ღ★,但谷歌凭借卓越的系统级工程(如ICI互联和光路交换)实现了极高的实际模型算力利用率(MFU)ღ★,且总体拥有成本(TCO)比英伟达GB200系统低约30%-40%ღ★。
谷歌正通过支持PyTorch原生环境和vLLM等开源生态ღ★,积极修补软件短板ღ★,试图从根基上瓦解CUDA的护城河ღ★。
目前千术光盘ღ★,世界上最顶尖的两个模型——Anthropic的Claude 4.5 Opusღ★,以及谷歌的Gemini 3ღ★,它们绝大部分训练和推理基础设施千术光盘ღ★,都运行在谷歌的TPU和亚马逊的Trainium上ღ★。
英伟达还专门为此发布了一条官方推文ღ★,恭喜谷歌在AI领域的进展ღ★,同时不忘强调自己依然遥遥领先ღ★。
在推文中ღ★,英伟达强调自己仍在持续向谷歌供应硬件ღ★,并表示自己依然领先行业一代金宝搏188入口ღ★,是唯一能够运行所有AI模型ღ★、并能在各种计算场景中使用的平台ღ★。
同时千术光盘ღ★,强调GPU比专用芯片(ASIC)在性能ღ★、通用性和可替代性上更强ღ★,这句话明显是对谷歌TPUღ★、AWS Trainium等专用芯片的回应ღ★。
在过去的几个月里ღ★,谷歌DeepMind的Gemini 3ღ★、谷歌云以及TPU综合体ღ★,赚足了眼球ღ★,也将谷歌母公司Alphabet的市值推高至接近4万亿美元ღ★。
TPU产量大幅上调ღ★,Anthropic金宝搏188入口ღ★、Meta金宝搏188入口ღ★、SSIღ★、xAIღ★、OAI等TPU的客户名单正在不断扩大ღ★,这些推动了谷歌和TPU供应链的大幅重新评级ღ★,无疑也将压制以英伟达GPU为重点的供应链ღ★。
除了面对TPU的压力ღ★,英伟达还面临着通过「循环经济」造成AI泡沫的质疑ღ★,许多质疑者认为英伟达通过资助烧钱的AI初创公司ღ★,本质上是将钱从一个口袋转移到另一个口袋ღ★。
英伟达旨在通过股权投资而非降价来保护其在基础实验室的主导地位——降价将拉低毛利率并引发投资者普遍恐慌金宝搏188入口ღ★。
虽然OpenAI目前尚未部署TPUღ★,但仅凭「转向TPU」这一可能ღ★,就已在其英伟达集群成本上节省约30%ღ★。
简单来说ღ★,OpenAI并没有真的把谷歌的TPU芯片插进服务器里跑任务ღ★,而是把「我随时可能改用TPU」作为一个巨大的谈判筹码ღ★,迫使英伟达为了留住这个大客户ღ★,变相给予了巨额优惠ღ★。
在过去的几个月里ღ★,谷歌已经动员了整个堆栈的努力ღ★,通过谷歌云平台或作为商用供应商销售完整的TPU系统ღ★,开启了TPU大规模商用的步伐ღ★。
与此同时ღ★,谷歌的顶级客户Anthropic也在继续推动摆脱对英伟达单一依赖ღ★,两者在采用TPU上一拍即合ღ★。
TPUv7 Ironwood是一个优秀系统内的强大芯片网路营销ღ★,ღ★,即使芯片在参数上落后于英伟达ღ★,谷歌的系统级工程也使得TPU堆栈在性能和成本效率方面都能与英伟达相匹配ღ★。
与英伟达通过GB200扩展其GPU生态一样ღ★,谷歌自2017年TPUv2以来ღ★,也一直在机架内和跨机架扩展TPUღ★。
自2024年5月GPT-4o以来ღ★,OpenAI的顶尖研究人员尚未完成广泛用于新前沿模型的成功全规模预训练运行ღ★,而TPU平台则通过了这一测试ღ★。
对于谷歌来说ღ★,在最具挑战性的硬件问题之一中悄悄挤入并建立性能领先地位ღ★,确实是一个令人印象深刻的壮举ღ★。
虽然谷歌一直在推动系统和网络设计的边界ღ★,但从一开始ღ★,谷歌在芯片方面的设计理念相对于英伟达就更为保守188bet金宝搏官网登录ღ★。ღ★。
第二个原因ღ★,直到2023年ღ★,谷歌的主要AI工作负载是为其核心搜索和广告资产提供动力的推荐系统模型ღ★。
与大模型工作负载相比ღ★,RecSys工作负载的算术强度要低得多ღ★,这意味着相对于传输的每一位数据ღ★,需要的FLOPs更少ღ★。
商用GPU提供商希望为其芯片营销尽可能好的性能规格SEOღ★,ღ★,这激励他们将营销的FLOPs提高到尽可能高的数字ღ★。
TPUv7 Ironwood是下一次迭代ღ★,谷歌在FLOPsღ★、内存和带宽方面几乎完全缩小了与相应英伟达旗舰GPU的差距ღ★,尽管全面上市比Blackwell晚了1年ღ★。
虽然谷歌通过Broadcom采购TPU并支付高额利润ღ★,但这明显低于英伟达不仅在他们销售的GPU上ღ★,而且在整个系统(包括CPUღ★、交换机ღ★、NICღ★、系统内存ღ★、布线和连接器)上赚取的利润ღ★。
英伟达的优势源于CUDA护城河和开箱即用的广泛开源库ღ★,帮助工作负载高效运行ღ★,实现高FLOPs和内存带宽ღ★。
相比较之下ღ★,TPU软件堆栈开箱即用的性能较弱ღ★,然而Anthropic拥有强大的工程资源和前谷歌编译器专家金宝搏188入口ღ★,他们既了解TPU堆栈ღ★,也很好地理解自己的模型架构ღ★。
他们可以投资自定义内核以驱动高TPU效率ღ★,这使得他们可以达到比采用其他商用GPU更高的MFU(模型FLOPs利用率)和更好的每PFLOP成本性能($/PFLOP)金宝搏188appღ★,ღ★。
谷歌此后修改了针对外部客户的软件战略网页设计ღ★,ღ★,并已经对其TPU团队的KPI以及他们如何为AI/ML生态系统做出贡献做出了重大改变ღ★。
谷歌在软件战略方面仍然处理不当的一个地方是ღ★,他们的XLA图编译器ღ★、网络库和TPU运行时仍然没有开源ღ★,也没有很好的文档记录ღ★。
就像PyTorch或Linux开源迅速增加了采用率一样ღ★,为了加速用户的采用ღ★,谷歌或许应该将其开源ღ★,用户采用率的增加将超过他们公开和免费提供的所有软件IPღ★。