此前,北京时间6月19日,人工智能芯片巨头英伟达(NVIDIA)市值超越微软成为全球市值最高的公司。
拳打微软(Microsoft)、脚踢苹果(Apple Inc. )的英伟达睥睨群雄,市值从2万亿美元升到3万亿美元仅用了96天(日历日)。
与之相比,根据Bespoke Investment Group的数据,微软用了945天,苹果则用了1044 天。
科技果然是第一生产力!英伟达市值的增长速度确实令人惊叹!
与此同时,美东时间6月17日(周一)英伟达还有重磅消息传出:该公司CEO黄仁勋时隔9个月再度出售英伟达股票。
黄仁勋本周一提交了一份被称作拟议出售证券通知书的144表格,计划在17日当日继续出售其于2022年3月获得的12万股股票,价值1581万美元(约合1.15亿元)。
此前,根据近日递交给美国证券交易委员会(SEC)的文件显示,黄仁勋在6月13日和6月14日分别抛售12万股公司股票,共计24万股,股票出售价格介于127.78美元至132.23美元之间,总计套现超过3118万美元(约2.26亿元)。
上述交易是否成功,需待几天后公告才能得知。
除了黄仁勋外,英伟达执行副总裁Deborah Shoquist也于2024年6月3日出售了41140股股票,套现超过4500万美元。
其他减持套现的英伟达高管还包括Dawn Hudson、Tench Coxe、John Dabiri、Michael McCaffery、Brooke Seawell和Mark Stevens,他们在最近几周也出售了不同数量的英伟达股票。
证券分析人士指出,“鉴于AI公司的估值太高,市场各方也会变得越来越谨慎,这一客观状况亦可以被理解为高管减持自家公司股票的原因。”
此举是否代表着高管们对英伟达市值能否继续增长的隐忧呢?或许他们已经意料到英伟达股票的技术回调(股价从近期高点下跌 10% 或更多)。
英伟达,始终领跑
AI重不重要真不好说,但英伟达市值成功证明,芯片绝对是目前第一生产力。
尽管英伟达的业绩倍增已经持续了一整年,黄仁勋依然坚定地表示,伴随着下一代Blackwell架构芯片的上市,公司正准备迎接“下一波的增长”。
6月2日,黄仁勋宣布,目前“全球最强大的芯片”Blackwell芯片现已开始投产。供应链对GB200寄予厚望,预估2025年出货量有机会突破百万颗,将占英伟达高端GPU出货量的40%—50%。
黄仁勋还剧透了英伟达未来三代 GPU 架构,确保此后每年都会有新的芯片发布:计划将在 2025 年推出 Blackwell 的增强版 Blackwell Ultra 芯片;2026 年,计划推出下一代用来取代 Blackwell 的 Rubin 架构芯片;2027 年推出 Rubin 的升级版 Rubin Ultra 芯片。并推出了面向AI PC市场的 GeForce RTX 芯片。
此外,其他所有芯片产品线的更新速度也将以非常快的速度推进,「新的 CPU、新的 GPU、新的网络网卡,新的交换机……即将迎来大量芯片新品」。
AI芯片只是芯片层的一部分,除了Hopper、Blackwell系列,英伟达还有自动驾驶芯片、游戏芯片和机器人芯片,产业布局广泛。
这场演讲比较全面地透露了英伟达的布局和野心:从下至上,从芯片到应用,“我全都要”。
目前,英伟达的人工智能芯片出现供不应求的局面。
在全球诸多领域,存在大约1.5万-2.0万家使用英伟达加速计算平台的生成式AI初创公司,他们亟需英伟达提供“铲子”,以训练模型。
黄仁勋表示,客户交付系统带给英伟达很大的压力——需求量实在太高,超过供应量。
这种供不应求的局面还会持续多久?
行业巨头,虎视眈眈
从市场竞争角度,英伟达的对手也在加速追赶,都想来争夺AI芯片爆发的美味蛋糕。
英伟达GPU正在受到AMD、英特尔(Intel)、博通(Broadcom)等公司的围剿,尽管它坐拥3万亿美元市值,但依然会倍感压力。而中国内地AI芯片厂商的崛起,更是冲击了英伟达在中国的这块大蛋糕。
本身就有AI加速卡的业务,集CPU和GPU设计能力于一身的AMD正在正面挑战英伟达显卡霸主地位。AMD公司CEO苏姿丰(Lisa Su)在COMPUTEX 2024宣布,更新Instinct GPU系列路线图。
其中,全新 AMD Instinct MI325X AI加 速 器(芯片),将配备288GB HBM3E内存和 6TB/秒的内存带宽,采用与MI300系列相同设计。相比英伟达最强 AI 芯片H200,MI325X内存容量提高2倍、带宽提升1.3倍、计算性能提升1.3倍,最快2024年四季度上市。
同时,此次AMD还即将推出下一代AMD Instinct MI350系列——首款MI350X加 速 器,基于全新AMD CDNA 4架构,采用台积电3nm工艺,具有高达288 GB的HBM3E内存。相比MI300系列,新的MI350系列的 AI 推理性能将提高惊人的35倍(3500%),预计将于2025年上市。
另外,基于下一代AMD CDNA「Next」架构的AMD Instinct MI400 系列预计将于 2026 年上市。
由于英伟达出货限制,AMD的频繁出招,为自己带来了更多与英伟达分羹的机会,英伟达的大客户微软更是直接宣布,将向云计算客户提供AMD芯片,作为英伟达芯片的替代品。
英特尔作为x86架构的奠基人,如今也涉足AI加速卡领域,可以见到它们所推出的产品不仅在参数上对标英伟达,还在定位与售价等方面发动了一轮又一轮的攻势。
英特尔在 Vision 2024 大会上发布名为Gaudi 3的最新人工智能芯片,这是其子公司 Habana Labs 的最新一代高性能人工智能加 速 器。
虽然其初衷可能并不是打算超越英伟达最新的人工智能芯片,而是希望为企业提供一种更便宜的替代产品,但势必对英伟达的业务造成一定冲击。
英特尔表示,与目前业内先进的 AI 加 速 器英伟达 H100 相比,Gaudi 3 在 16 个加 速 器集群中以 FP8 精度训练 Llama2-13B 时,性能比 H100 快 70%。尽管 H100 已经问世 2 年,但如果 Gaudi 3 成功的话,在任何训练方面都大幅击败 H100 对于英特尔来说将是一个巨大的胜利。
英伟达的许多竞争对手都想抢占其市场主导地位,其中一个不断出现的名字是博通。博通将自己定位为替代方案,向云端计算和AI公司提供定制的AI 加 速 器芯片(称为XPU)。
在最近的一次活动中,博通指出,对其产品的需求正在滚雪球般增长,并指出两年前最先进的集群有4096个XPU。2023年,它构建了一个拥有超过1万个XPU节点的集群,需要两层Tomahawk或Jericho交换机。该公司的路线图是将其扩展到3万多个,最终达到100万个。
博通强调的一项优势是其XPU 的能效。其功耗不到600 瓦,是业内功耗最低、最节能的AI 加 速 器之一。
博通“Thor 2” NIC 芯片则与 NVLink Switch 4 ASIC 一样,能够直接从 ASIC 上的 SerDes 驱动铜缆,该芯片于 2022 年推出,2023 年出样,现已开始出货。博通通过将 Thor 2 NIC 芯片缩小到 5nm TSMC 工艺,真正突破了功耗极限。(5nm尺寸已足够小,可以大大节省功耗,故未使用工艺尚未成熟,且昂贵的 4nm或 3nm工艺)
Thor 2 还可以直接驱动长达 5 米的铜缆,而大多数 NIC 竞争对手只能驱动 2.5 米长的铜缆,大大降低了电力需求——最多比竞争对手少了一半。
Thor 2 芯片还支持 RoCE v2 RDMA,它类似于 InfiniBand 内置的 RDMA,但支持在以太网上运行。借助 Thor 3 ASIC,博通将采用超级以太网联盟技术,并将端口速度提高到 800 Gb/秒。Thor 3 预计将于明年推出,与服务器中 PCI-Express 6.0 外设插槽的预期交付大致同步。
此外,英伟达最大的客户之一Meta 也不甘示弱,宣布推出Meta 自主研发芯片MTIA,这是一款在公司数据中心运行的定制人工智能芯片,可能会减少对英伟达人工智能处理器的依赖。
谷歌母公司Alphabet 则推出以人工智能为中心的处理器——云张量处理单元(Cloud Tensor Processing Unit, TPU) v5p,可以训练支撑人工智能系统的大型语言模型。
还有超威半导体(AMD.US)的MI300X,特斯拉分别将其用于全自动驾驶系统和超级计算机Dojo的自研芯片。
就连微软,也在其2024的Build大会上,正式宣布了自研芯片Azure Maia 100 和 Cobalt 100 芯片。
不少人认为,买家不会容忍英伟达GPU 的交货时间过长,这将给大量竞争对手制造机会。
英伟达的订单一直处于爆满的状态,业界不会一直等待英伟达。
中国业务,无力挽回
在国内,英伟达“中国***”的人工智能芯片马失前蹄,已开始大幅下调价格。
囿于美国不断抛出半导体相关制裁法案,去年年底,英伟达推出三款为中国量身定制的芯片,分别是HGX H20、L20 PCIe和L2 PCIe,均从H100基础版修改而来,以符合美国芯片出口条款的新规定。
英伟达GPU产品有一个序列。H100、H200和B100,是英伟达当家GPU产品。以上三种芯片,包括2020年的A100,都受到美国芯片出口管制条款的限制,无法出售给中国企业。
英伟达的产品序列,简单来理解,H100性能,是A100的2倍以上;H200性能,是H100的2倍以上;B100性能,又在H200的2倍以上。
其中,H100是英伟达当前市场流通的主产品线中最强大的GPU,拥有80GB HBM3内存,内存带宽为3.4Tb/s,理论性能为1979 TFLOP,性能密度(TFLOPs/Die size )高达19.4。
其基础上修改的“中国***”版本中,H20性能最强大,但一直“卖不动”。
从之前曝光的规格来看,H20拥有96GB HBM3内存,运行速度高达4.0 Tb/s,均高于H100;运算能力仅为296 TFLOPs,性能密度(TFLOPs/Die size)仅为2.9,远不如H100。理论上H100 相比H20 的速度快了6.68倍,也就是说,H20的AI算力只有H100的不到15%。
但值得注意的是,这个比较是基于FP16 Tensor Core的浮点计算能力(FP16 Tensor Core FLOPs),且启用了稀疏计算(大大减少运算量,因此速度会有显著提升),因此并不能全面反映其所有的计算能力。
另外,该GPU的热设计功耗为400W,低于H100的700W,并且在HGX解决方案(英伟达的GPU服务器方案)中可以进行8路GPU的配置,它还保留了900 GB/s的NVLink高速互联功能,同时还提供了7路MIG(Multi-Instance GPU,多实例GPU)的功能。
值得一提的是,H20的计算能力虽然只有296个TFLOP,远不及H100的1979个,但如果H20的实际利用率MFU(Model FLOPs Utilization,模型FLOPs利用率,目前H100的MFU仅为38.1%)能达到90%以上,这意味着H20实际能跑出270 TFLOPS,那么H20在实际多卡互联环境中的性能接近H100的50%。
从传统计算的角度来看,H20相比H100有所降级,但在LLM推理这一方面,H20实际上会比H100快了20%以上。
总的来说,Nvidia H20核心价值在于使用H20组建大规模集群用于大模型训练,以及适合用于超大规模LLM推理。
其他两款,L20配备48 GB 内存和计算性能为239个TFLOP,而 L2 配置为 24 GB 内存和计算性能193个TFLOP。L20基于L40,L2基于L4,但这两款芯片在LLM推理和训练中并不常用。
L20和L2均采用 PCIe 外形规格,采用了适合工作站和服务器的PCIe规格,相比Hopper H800和A800这些规格更高的型号,配置也更加精简。
所以,英伟达用于AI和高性能计算的软件堆栈对某些客户来说非常有价值,以至于他们不愿放弃Hopper架构,即使规格降级也在所不惜。
定价方面,H20在2023年底,定价和华为竞品差不多。
到2024年2月,H20每张定价约为1.5万美元(11万人民币),已经略低于华为昇腾910B约12万元人民币的售价。
5月底,英伟达“秘密”降价,下调中国***芯片价格,已经降至大约10万元人民币左右,价格比华为昇腾910B便宜10%以上。
华为昇腾910芯片
也有消息称,华为今年将大幅度增加出货量,单卡价格在7万元人民币左右,牢牢卡住优势位置。
市场层面,业内厂商认为,H20不如国产有性价比,其的销售前景似乎并不被看好。有国内云厂商表示,此前已采购足够数量的AI加速卡,暗示再采购H20似乎没有必要。同时,中国公司也越来越倾向于大量采购国货,放弃食之无味的H20。
国产AI芯片要实现完全自主替代仍然需要时间,其中最关键的问题是生态方面,英伟达的CUDA平台垄断了AI软件行业,国内AI软件/大模型大多是基于CUDA平台搭建,因此这也是英伟达即使弱化了AI芯片性能,依然能获得国内企业采用的原因。
但在***和企业的联合推动下,当国产AI芯片被更多地采用,其产业链和技术问题都将得到快速完善,生态方面的建立,也都将只是时间问题。
事实上,H20的惨淡或许意味着英伟达中国业务的衰落,其命运已蒙上阴影。
有分析师表示,“从长远来看,英伟达肯定在为最坏的情况做准备。”
一方面,英伟达的战略正如黄仁勋公开演讲所宣称,极大扩展业务范围,“霸占”数据中心、游戏、自动驾驶乃至人形机器人等热门应用领域,把握住全球市场风向。
另一方面,对于可能缩小的中国市场,英伟达尽最大努力销售产品,甚至作出比过去更多的让步。
2024年下半年,将有近100万颗H20芯片运往中国,如果要紧跟单价7万元人民币的华为,英伟达的利润空间将受到大幅度挤压。
作为英伟达在中国市场唯一“能打”的产品,H20的售价不到H100的一半,但由于更高的内存容量,其制造成本高于H100。
除去价格战和出货量因素,英伟达H20在中国之外也不好卖。
根据外媒对现有***采购数据的调查,过去的半年里,只有5个国家或国家附属机构有意向购买H20,但华为昇腾910B的买家有十几个。
事实上,英伟达最怕的或许不是少了中国市场,虽然中国市场为它贡献近20%的收入,他更担心的应是中国市场体量培育出的可怕的竞争对手。