GPU与TPU之争:AI硬件的"通才"与"专才"共存时代
"谷歌的TPU不是对英伟达的挑战,而是对整个AI硬件生态的重新思考。"在近日的腾讯contech大会上,摩尔线程创始成员、摩尔学院院长李丰与沐曦高级副总裁孙国梁就"谷歌挑战英伟达"这一话题展开深入讨论,揭示了AI硬件领域正在经历的深刻变革。
从"单一赛道"到"通专共存"
谷歌最新发布的Gemini 3系列AI模型所使用的自研TPU,展示了在性能与成本上的优势,被外界解读为对英伟达GPU霸主地位的强劲挑战。资本市场反应迅速,英伟达市值一度蒸发超千亿美元。这一事件将一个核心议题推至台前:在以大模型为核心的AI时代,硬件的技术范式是否正在从通用GPU转向专用芯片?
李丰和孙国梁的观点,揭示了这场争论背后的本质。李丰指出,"争议背后其实是'通才与专才'的分工,而非简单的替代关系。"他分析,谷歌能做TPU,本质上是因为它是全栈整合公司,拥有强大的Infra、基础模型与云服务形成闭环,把模型跑在自家芯片上量身优化,实现成本性价比的最大化。
"但绝大部分企业不具备这样的垂直整合能力。"李丰强调,"GPU持续保持优势的原因有三个:灵活度是'甜点'、多模态时代的全功能性、生态的护城河。"
通才与专才:AI硬件的"双轮驱动"
孙国梁的观点更加直接:任何芯片架构都没有高低优劣之分,关键还是看场景。"GPU和ASIC的架构几十年前就存在,已经是超级稳态。"他指出,"现在的大模型太卷了,迭代速度非常快,达到了按周计、按月计的程度,任何基础模型远未到达收敛的时间点,通用GPU的泛化能力和适配性仍是核心竞争力。"
在李丰看来,未来是多模态的,需要"理解世界、用三维构建世界、超高清传输世界",全功能GPU的"图算一体"能力在跨域支持所有计算范式上,有不可替代的优势。因此,摩尔线程会继续"啃最困难的全功能GPU图算一体的'硬骨头'"。
从单卡到集群:AI硬件竞争的新焦点
"单张计算卡的峰值算力已非唯一决胜因素,构建能够连接成千上万张计算卡的高性能网络,并与软件栈深度协同的集群系统,才是真正的核心竞争力。"李丰在讨论中强调。
摩尔线程和沐曦也给出了基于实践的回答。李丰透露,摩尔线程目前有多个投入生产的千卡集群在运行,不是在实验室,已在生产期运行,支持训练和推理。他指出,"现在AI大模型的运行并不在单卡的算力多少,实际上卡间互联的网络通信是非常复杂的架构,摩尔线程要做的是端到端全栈的解决方案。"
沐曦的孙国梁也认为,AI基础设施的最大挑战在于明确产品的本质:客户最终需要的是一个能够可靠支持大规模模型训练、推理与服务的通用算力平台,而非孤立的一张卡或一台服务器。他表示沐曦已在全国范围内部署了数千卡规模的集群,并且成功完成了从传统模型到MoE(混合专家)模型乃至非Transformer架构模型的训练任务。
未来展望:硬件生态的协同进化
尽管李丰和孙国梁都认同GPU和ASIC会长期共存,但他们都对行业未来有清晰的判断。李丰认为,未来一定还会有超大型的有云服务的公司,在自己某种超大型服务以及算法收敛稳定到一定阶段时选择定制专门的TPU,并且在能力溢出时和其他的厂商进行合作。
孙国梁则认为,"英伟达股价近期的波动或是一种很好的'砍价方式'。"他指出,华尔街此前将英伟达推上市值榜首,证明了通用性GPU在当前历史阶段的主流地位。
行业启示:硬件选择的"场景化思维"
这场关于GPU与TPU的讨论,实际上反映了AI硬件行业正在从"技术导向"向"场景导向"的思维转变。当谷歌的TPU在特定场景下展现出优势时,这并不意味着GPU将被淘汰,而是表明硬件选择应该基于具体应用场景,而不是盲目追求单一技术路线。
"AI硬件的选择,不是看谁的性能更高,而是看谁的解决方案更适合你的业务场景。"一位资深AI硬件分析师总结道。
结语:AI硬件的"通专共存"时代
在AI硬件的这场变革中,我们看到的不是简单的"GPU vs TPU"之争,而是"通才"与"专才"的共存与协作。正如李丰所言,"未来是多模态的,需要'理解世界、用三维构建世界、超高清传输世界',全功能GPU的'图算一体'能力在跨域支持所有计算范式上,有不可替代的优势。"
这场变革不会导致GPU的消亡,而是将推动GPU与ASIC在不同场景下发挥各自优势,共同构建一个更加丰富、灵活的AI硬件生态。当行业从"单卡性能"转向"集群协同",从"技术选择"转向"场景适配",AI硬件领域将迎来更加健康、可持续的发展。
在这个"通专共存"的时代,真正的竞争力不在于单一硬件的性能,而在于构建能够适应多场景、支持多模态、实现高效协同的AI硬件生态系统。这不仅是技术的挑战,更是思维的转变,标志着AI硬件行业走向成熟的重要一步。
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。
