有走私贩子透露,由于每个国家把控严格度不一,如果把H100放在包里,把它报成普通电子设备。
麻烦的是服务器架。H100需要插在服务器架上,才能用于训练AI大模型。一套完整AI服务器要配置8块H100,加上一台超微电脑的服务器架,大约相当于一个保险柜。
面对如此庞然大物,自然无法靠人肉背回。一般的做法是化整为零,将服务器拆开,用蚂蚁搬家地方式发回。至于运输途中关键部件是否会损坏,运到目的地如何拼装回去,一切都存在极大的风险。
H100在2022年3月刚发售时,售价折合人民币约24.2万元。如果在两年前屯了一批H100,什么都不用做,每张到现在能净赚6到9万元。
在过去一年间,从朋友圈、小红书等社交平台,到拼多多、闲鱼等电商平台,再到各类垂直社区、垂直社群,有无数贩子打出了“H100现货,手慢无!”、“稀缺H100现货,先到先得!”、“原厂H100,见货付款,欲购从速!”的标签。
而如果进一步私聊,这些芯片贩子会告诉你,产品没有保修或支持服务,到货最起码需要6到8周,并且需要先付定金。如果问及发货地和货源,贩子们大多会回答称“海外发货,大陆交付,可以送至指定地点。”
据买家爆料,走中小型中间商渠道,风险很高。
首先,交了定金,后续也可能因各种原因拿不到货。其次,即使能拿到货,诸如运输过程中磕碰、泡水等现象,也时有发生,“碰到这种情况就只能自认倒霉,根本不存在退货一说。”
可即便如此,在各个社交平台“H100预购从速”的帖子下方,仍然有成群结队的用户在咨询价格。
抢购、加钱、售罄
购买走私GPU不是常态,对大公司而言,终究还是得跟英伟达做正经生意,从官方渠道购买A100、H100。
2022年的出口禁令下发后,经英伟达游说,重新获得了出口许可。在2023年3月1日之前,英伟达可以继续给中国大陆提供A100产品。
各家科技巨头赶紧行动,经历了“从抢购,到加钱,到售罄”的心路历程。
据《晚点》报道,张一鸣在卸任CEO后,把工作重点放在了研究AI上,不仅自己看AI相关论文,还经常跟一些字节高层分享论文学习心得,以及对ChatGPT的思考。高层对AI的重视,让字节在提前抢购英伟达芯片时占得了先机。
在GPT-4发布后不到3个月,字节就被爆出,向英伟达订购了超过10亿美元(约合人民币71亿)的GPU,到货和没到货的A100和H800总计有10万块。考虑到2022年全年,英伟达数据中心GPU在中国销售额大约100亿元,也就是说,字节一家公司的订单,几乎超过了英伟达过去一年在中国的总销量。
另一家提前向英伟达下单,囤积GPU的巨头是阿里。据一位阿里云内部人士向《人物》透露,阿里云专门成立了一个供应链团队,其中有几十人负责芯片采购,直接听命于CTO。在阿里云前CEO张勇卸任之前,通义千问等AI项目都向他直接汇报。
提前抢购A100、H100最直接的好处是——省钱。因为英伟达芯片的涨价,实际上与大模型的发展息息相关。2022年在ChatGPT刚刚发布时,大厂们普遍认为生成式AI很有潜力,但不成熟,不值得大批采购AI芯片。
但到2023年3月14日,OpenAI发布GPT-4后,大厂和VC们终于意识到,GPT的颠覆性威力,以至于各界迅速形成了共识——快搞大模型、快屯AI芯片!
也是从GPT-4发布后,大模型赛道涌进了大量热钱,以及不差钱的大厂,英伟达芯片的价格也随之水涨船高。大家都必须加钱才能抢到芯片。
按照《人物》的描述:“来自美团的高管带着采购团队,把数百台8卡A100服务器,像买白菜一样全部扫走。尽管一台机器的价格要大几十万,总订单额过亿,美团的人丝毫没有犹豫,下单、签合同、打预付款、提货……流程飞快。”
再到后来,连加钱都买不到AI芯片了。商业巨头和小公司处境几乎一致。
亚马逊云CEO亚当·塞利普斯基就表示:“H100是最先进的……可即使对于AWS来说也很难获得。”
富士康董事长刘永伟也表示,过去一年只有少数公司能获得足够的英伟达AI芯片来维持需求。在台北富士康年度员工聚会上,刘永伟对记者表示:“当要满足(AI芯片)需求时,也许需要建立新工厂。”
吃英伟达的剩饭
英伟达GPU像香料一样,诱惑着越来越多人参与到这场争夺中。
在2023年拉斯维加斯的CES科技大会上,AMD CEO苏姿丰表示:“AI已是AMD的第一战略重点。预计AMD最新推出的Instinct MI300加速卡,可以帮助AMD占领市场。”在介绍中,MI300X芯片是一款全面超越英伟达H100 AI芯片的产品。
投放市场后,MI300也迅速成为了AMD历史上销售额最快达到10亿美元的产品。
根据AMD财报,MI300芯片订单的主要来源是微软、Meta、甲骨文、谷歌、亚马逊等大厂。与英伟达H100的客户群体高度重合。
无怪乎《福克斯》认为:“如果业界还有英伟达潜在的对手,那一定包括苏姿丰和她掌管的AMD。”
除了AMD,老牌芯片巨头英特尔也不想在AI时代掉队。
在过去一年,英特尔CEO帕特·基辛格多次表示:“生成式AI不只可以在英伟达芯片上运行。”虽然英特尔最先进的AI加速芯片Gaudi 2在性能上不及英伟达H100。但基辛格认为,Gaudi 2成本更低,主打价格优势,可以在性价比方面缩小与H100的差距。
与此同时,英特尔还宣布正在调整GPU策略,整合现有的Habana Labs、数据中心GPU两大部门,于2025年推出新平台“Falcon Shores”,进一步增强AI芯片设计能力。
按基辛格的说法:“以后的AI算力竞争一定会很有趣。”
甚至除了老牌芯片巨头,一大批半导体新生力量,也在试图抢夺英伟达的市场份额。根据外媒报道,腾讯、阿里等互联网巨头,已经有些“看不上”英伟达的特供版芯片,转而寻求与国内GPU厂商合作了。这些GPU厂商包括华为、燧原科技、摩尔线程等。
在黄仁勋最近的采访中,连AMD都看不上的老黄表示:“在生产最好的AI芯片的竞争中,华为是英伟达非常强大的竞争对手之一。”
而诸如燧原科技、摩尔线程等第二梯队国产GPU公司,也在2023年拿到了数十亿元不等的大额融资。
这一切变化都源于,全球企业都在寻找英伟达GPU的替代品。毕竟,英伟达的GPU再好,只有能用上才是真好。单是英伟达满足不了的市场需求,已经足以喂饱一大批GPU新兴企业。
但要取代英伟达又谈何容易?
造成英伟达GPU短缺最根本的原因在于,GPU是一种极端复杂的产品,需要世界上最先进的生产工艺,目前只有台积电能够加工生产,而台积电的产能是有限的。
目前H100都由台积电代工,使用4纳米工艺(A100使用的是7纳米),从开始生产到出售给客户,H100中间经历的生产、包装和测试环节,一共需要6个月左右。
根据GPU Utils发布的一份研究报告,制约GPU扩大生产的一个主要瓶颈,是所谓的CoWoS封装技术。
CoWoS可以拆分成“CoW”和“WoS”来看。“CoW(Chip-on-Wafer)”指芯片堆叠;“WoS(Wafer-on-Substrate)”则是将芯片堆叠在基板上。CoWoS就是把芯片堆叠起来,再封装于基板上,最终形成2.5D、3D的型态,减少芯片的空间,同时减少功耗和成本。CoWoS封装技术目前的月产量也就1万片左右。
台积电可不止为英伟达代工,AMD以及博通、思科和赛灵思等都同样在使用CoWoS封装技术制作芯片。
产能瓶颈限制GPU供应的难题,在短期内是无解的。即便如AMD设计出了强大的MI300加速卡,归根结底还是要找台积电代工,台积电就算把给英伟达的产能给到AMD,等于市场上GPU的总量其实没有增加。
与此同时,英伟达真正的壁垒,并不只有GPU硬件性能,还在于其庞大的AI软件生态CUDA。
简单来说,决定GPU使用效果的不只是本身性能,还包括配套软件和开发工具对应用的支持。目前英伟达定义了GPU通用计算编程框架CUDA,开发者们早已习惯了用CUDA专有的编程语言,制作GPU驱动的应用程序。
如果开发者要迁移到谷歌、亚马逊、微软或国产的GPU,他们甚至需要学习全新的软件语言,迁移成本显然很高。
但后发厂商完全不必妄自菲薄,正如中国工程院院士、清华大学计算机系教授郑纬民所言:“今天国产AI芯片只要达到国外芯片60%的性能,如果生态做好了,客户也会满意。”
只是在达到英伟达GPU 60%的性能之前,企业们看起来先选择了以拆旧货、走私、抢购、加钱扫货等方式,缓解自身的AI芯片荒。
参考资料:
Nvidia’s Stunning Ascent Has Also Made It a Giant Target
How a Shifting AI Chip Market Will Shape Nvidia’s Future
Nvidia’s New China Pickle: Customers Don’t Want Its Downgraded Chips
Armored Cars and Trillion Dollar Price Tags: How Some Tech Leaders Want to Solve the Chip Shortage
The Desperate Hunt for the A.I. Boom’s Most Indispensable Prize
How Nvidia Came to Rule AI
极客公园:英伟达力挺,这家“AI 算力黄牛”4 年估值 560 亿
人物:互联网大厂,有钱难买A100
芯潮IC:天价H100流向黑市
晚点LatePost:争夺 AI 入场券:中国大公司竞逐 GPU