近日,10月17日,美国正式发布新规,全面收紧尖端AI芯片对华出口。商务部长雷蒙多表示,计算机管制目的是中国获得先进芯片,阻碍阻碍「人工智能和复杂领域的突破」。由此,英伟达和其他芯片制造商向我国销售高性能半导体,受到的限制愈加,而相关公司找到绕过限制的方法,也希望愈加严格。根据相关文件,GPU芯片只要满足以下条件的其中一个,就可能受到出口限制——
来源:中信证券随着新规的生活方式,英伟达、AMD和英特尔的股价也一度大跌。据称,英伟达在数据中心芯片方面的收入,有多达25%都依赖于中国市场。
此外,作为新规的一部分,芯片设计公司摩尔线程和壁仞科技,也被拉入了最新的黑名单中。
30秒,立即生效!
根据美国商务部下发的文件,禁令将在30日生效。同时,雷蒙多还表示,以后法规可能每年更新一次。
文件链接:https://www.bis.doc.gov/index.php/about-bis/newsroom/2082
目录
在去年的队列中,美国曾禁止出口超过2个阈值的芯片:一个是芯片所含运算力的大小,另一个是芯片之间相互通信的速率。之所以这么做,是因为AI系统需要在同一时间将数千个芯片串联在一起,进行大处理而英伟达特供版的芯片H800/A800做到了保持在通信限制之下,同时仍能训练AI模型,因为它们保留了强大的计算能力。反过来,路透社报道称,英伟达H800芯片间数据的传输速度为每秒400秒GB/s,低于H100最高速度(每秒900 GB/s)的一半。
这一次,美国官员表示,新规将更关注算力,这就可以控制更多芯片,包括英伟达的特供版。算力方面,美商务部这次取消了“带宽参数”,取而代之的是“性能密度”。根据新规,修改后的出口管制禁止向中国公司出售运行速度为300 TFLOPS(一万亿磨损/秒)及以上的数据中心芯片。如果速度为150-300 TFLOPS的芯片的「性能密度」为每平方毫米370 GFLOPS(十亿次运算/秒)或更高,则将被禁止销售。以上述速度运行,但性能密度较低的芯片属于「灰色地带」,这意味着必须向美国政府通报对中国的销售情况。虽然这些规则不适用「消费产品」的芯片,但美商务部表示,出口商在出口速度超过300 TFLOPS的芯片时也必须上报,方便及时跟踪这些芯片是否被大量用于训练AI模型。
根据新规,旅行的英伟达芯片包括但不限于A100、A800、H100、H800、L40和L40S,甚至连RTX 4090也需要额外的许可要求。现在剩下的,似乎只有英伟达V100了。根据该芯片参数,芯片内部通信速度为300 GB/s,运行速度最大为125
此外,任何集成了一个或多个基础逻辑的系统(包括但不限于 DGX 和 HGX 系统)都有新许可要求的内部范围之内。不过,英伟达预计、短期内美国最新限令不会产生重大影响。
美国这次尝试解决的另一个问题,是Chiplet。通过这种技术,芯片的较小部分可以连接在一起,形成完整的芯片。美国担心中国公司通过Chiplet获取符合规定的小芯片,再秘密组装新成更大的芯片。
然后限制增加了「性能密度」的,对芯片在一定尺寸中的计算能力进行限制,就是针对这样一个变通方法。Chiplet方法,或许是中国半导体行业未来的核心。
业内人士认为,如果美国芯片在中国被禁,中国公司会努力市场上的空白。摩尔线程和壁仞科技都是由英伟达前员工创立的,被认为是中国生产英伟达芯片国产替代品的最佳候选者。但现在添加,这家公司也被到了清单上,这波及了台湾半导体公司或其他美国设备的制造商为他们制造芯片。
美国表示,任何包含500亿或更多晶体管、并使用高带宽内存的芯片,都包含着危险信号。出口商需要注意,是否需要许可证才能向中国付款。而这一金额,几乎涵盖了所有先进的AI芯片,帮助芯片工厂发现规避规则的行为。
DUV光刻机也设定
美国严格限制先进芯片的出口许可证要求增加到22个国家。管制范围也扩大到最终母公司总部设在上述国家的任何公司,以防止境外子公司购买违禁芯片。美国还对其他21个国家提出了芯片制造工具的许可要求,担心这些设备可能被转移到中国。荷兰的DUV光刻系统也受到了影响,以防止ASML向中国的芯片工厂运输一些较旧的DUV型号和配件。DUV设备比不上最先进的EUV设备,但它可以以更高的成本制造芯片。而EUV已经全面被禁止。
大厂囤货:10万块A800,今年交付
对于互联网行业来说,现在还有多少存货?目前,这一具体物资未知。不过,国内大厂刚刚发声:我们囤得够了。前段时间,外媒FT国内曾报道称,互联网大厂竞相订购了价值约50亿美元的英伟达芯片。据介绍,百度、字节、腾讯、阿里已经向英伟达下单A800,价值10亿美元,共10万块芯片,将于今年交付。另外,还有40亿美元GPU订单,也将于2024年交付。
他们内部人士承认,字节已经储备了至少10万个英伟达GPU来支持各种生成式人工智能产品。他们补充该公司还订购了近7万个A800芯片,将于明年交付,价值约7亿美元。英伟达在一份声明中表示,“消费者互联网公司和云事业,每年在数据中心组件上投资声明数亿美元,而且往往提前数月下单。”今年早些时候,随着全球生成式AI的不断推进,据国内科技公司的内部人员表示,大多数中国互联网派对可用于大型语言模型的芯片库存不到几千个。自那以来,随着需求的增长,这些芯片的成本也在增长。一位分销商英伟达表示,“分销商手中的A800增长了50%以上”。
比如,阿里发布自家大模型通义千问后,把其整合到各线产品中。同时,百度也在积极投入大模型的研发和应用中,文心一言不断迭代升级,现能与GPT-4媲美。腾讯云今年4月,发布了一个全新的服务器集群,其中就使用了英伟达H800。另据2位人士透露,阿里云还从英伟达获得了数千个H800,而且不少客户与阿里建立了联系,希望利用这些芯片驱动的云服务,以推动自家模型的研发。
训练大模型,用什么芯片?
从年初至今,大家纷纷开发自家的大模型,通常对标的是「地表最强」GPT-4模型。国外爆料称,GPT-4采用MoE架构,由8个220B模型组成,参数量达到1.76万亿。这个参数量已经让人尘莫及,对算力的消耗已经是最大极限。具体来说,OpenAI来说训练GPT-4的FL OPS大约是2.15e25,在大约25000个A100上训练了90到100天,利用率在32%到36%之间。
那么,对于下一代模型,人们口中的「GPT-5」,对算力又会有多大的需求?此前,摩根士丹利曾表示,GPT-5将使用25000个GPU,自2月以来已经开始训练,不过Sam Altman之后重申了GPT-5尚未进行。根据另一席训练的说法,GPT-5可能需要30000-50000H100。
这意味着,如果科技大厂想要进一步推进大模型的迭代升级,还需要极大的算力支持。对此,英伟达首席科学家Bill Dally曾表示:“随着每6到12个月的训练需求翻块,这种差距将随着时间的不断而急剧扩大。”参考资料:https://www.ft.com/content/be680102-5543-4867-9996-6fc071cb9212 https://www.reuters.com/technology/how-us-will-cut-off-china-more-ai-chips-2023-10-17/
邮件:siyushenqi@gmail.com
工作时间:周一至周五,9:30-18:30,节假日休息