ChatGPT的爆红让英伟达赚的盆满钵满,据媒体透露,英伟达用于AI和高性能计算应用的H100 GPU早已销售一空,即便现在交钱订货,也要等到明年中旬才有货。
英伟达的GPU不仅不愁卖,实际售价也水涨船高。市面上,H100 GPU已是原价2万美元的两倍,约为 29 万元人民币。
据《金融时报》报道,今年8月,百度、字节跳动、腾讯和阿里巴巴向英伟达共订购了价值50亿美元的芯片。但业内人士表示,仅有10亿美元的A800 GPU处理器能在年内交付。这款处理器由英伟达为中国客户打造,性能与A100接近。
10月7日,微软和Open AI宣布了各自的造芯计划,微软有望在下个月的年度开发者大会上,推出首款为人工智能设计的芯片,据称,微软希望这款代号为Athena(雅典娜)芯片。
据OpenAI网站上的几则招聘信息显示,公司正在招聘能够帮助其评估和共同设计AI硬件的人员。路透社也报道,OpenAI正在计划下场生产自己的AI芯片。
早在2022年,OpenAI CEO奥特曼(Sam Altman)就公开抱怨英伟达GPU芯片稀缺,称公司受到GPU的严重限制。
此外,谷歌、亚马逊、Meta、AMD、英特尔、IBM等已系数下场自研AI芯片,对英伟达的霸主地位发起围攻。
上个月,消息称亚马逊将向Anthropic投资40亿美元,作为交易的一部分,Anthropic 将使用 AWS Trainium 和 Inferentia 芯片来构建、训练和部署其未来的基础模型。
今年6月,AMD就发布了Instinct MI300,直接对标英伟达H100,是专门面向AIGC的加速器。其集成的晶体管数量达到1530亿,高于H100的800亿,是AMD投产以来最大的芯片。AMD甚至用兼容英伟达CUDA的策略,降低客户的迁移门槛。
特斯拉也在积极推进Dojo超算集群的研发及建设进程,旨在更好地推动FSD算法升级迭代等,Dojo将提升特斯拉云端算力,并有望降低算力集群成本,在自动驾驶及人形机器人等领域应用前景广阔,而应用领域的扩大及成本分摊也将推动Dojo加速落地。
今年7月Dojo正式投产,特斯拉计划到明年在Dojo上投入超过10亿美元。2024年10月,Dojo总算力预计将达100EFLOPs相当于约30万块英伟达 A100的算力总和。同时,特斯拉将继续提升Dojo性能Dojo V2性能将是Dojo V1的10倍,且未来有望被用于通用人工智能领域。
目前,英伟达占据全球数据中心AI 加速市场82%的份额,且以95%的市场占有率垄断了全球 Al 训练领域的市场,成为这轮 AI 混战中最大赢家。可以预见的是,目前英伟达仍然几乎垄断AI芯片市场,短期内没有竞争者可以完全摆脱依赖,这场竞赛还处于刚刚开始,但竞争对手的实力不容小觑。
英伟达疯狂吸金
面对来势汹汹的竞争对手,英伟达也在紧锣密鼓的升级产品,今年3月,英伟达将自研的Arm架构CPU与其最先进的GPU——H100封装在一起,推出“超级芯片”GH200,用于复杂 AI 和超算的 GH200 进入全面生产阶段,并将于本季度在 OEM 服务器厂商上市。
今年5月底,英伟达又推出了DGX GH200,通过定制的NVLink Switch System(包含 36 个 NVLink 开关)将256个GH200超级芯片和高达144TB的共享内存连接成一个单元,避免标准集群连接选项(如 InfiniBand 和以太网)的限制。
这种新的互连方式使DGX GH200系统中的256个H100GPU作为一个整体协同运行,使其成为了专为最高端的人工智能和高性能计算工作负载而设计的系统和参考架构,可支持数万亿参数AI大模型训练。
8月9日,英伟达发布了全新 GPU L40S,是英伟达A100 GPU的5倍。需要注意的是,L40S与上一代一样不支持NVLink。
英伟达L40S GPU将在今年秋季上市,包括华硕、戴尔、技嘉、HPE、联想、QCT、美超微在内的厂商,将很快提供搭载英伟达L40S GPU的OVX系统。
今年8月,英伟达又再次升级 GH200芯片存储,发布新一代GH200 Grace Hopper平台,这使得新平台能够运行比上一版本大 3.5 倍的模型,同时凭借快 3 倍的内存带宽提升性能。
值得注意的是,新平台采用的新款超级芯片GH200与此前发布的H100相比,二者使用同样的GPU,但GH200将同时配备高达141G的内存和72核ARM中央处理器,每秒5TB带宽,内存增加了1.7倍,带宽增加了1.5倍。
新型Grace Hopper超级芯片GH200,依托于搭载全球首款搭载HBM3e处理器,预计明年二季度供货,DGX GH200 系统将在2023 年底率先提供给谷歌云、Meta 和微软 。
英伟达此次发布新型Grace Hopper超级芯片GH200,也被视为对竞争对手AMD的反击。
当地时间8月23日盘后,英伟达公布的2024第二财报季业绩显示,截至2023年7月30日,公司第二季度营收135.07亿美元,同比增长101%,环比增长88%,高于分析师预期110.4亿美元;归属净利润实现61.88亿美元,同比增长8.43倍;摊薄每股收益为2.48美元,同比增长854%,环比增长202%。
华为构建第二选择
近日,在华为全联接大会2023上,华为提出全面智能化(All Intelligence)战略,加速千行万业的智能化转型。
华为轮值董事长孟晚舟在此次大会上表示,人工智能的发展,算力是核心驱动力。
算力的稀缺和昂贵,已经成为制约AI发展的核心因素。华为将致力于打造中国的算力底座,为世界构建第二选择。参数超过千亿甚至万亿的人工智能神经网络模型,正在加速进入千行万业,AI发展也正在跨越拐点。
2018年10月,华为发布自研AI芯片昇腾,对标美国英伟达GPU(图形处理器)。随着去年年底ChatGPT和大模型的火爆,英伟达GPU正极力扩大产能。
在此次大会上,华为发布了昇腾AI计算集群Atlas 900 SuperCluster,采用华为自研的星河AI智算交换机CloudEngine XH16800,将大量自研芯片连接起来做成集群,可支持超万亿参数的大模型训练。
Atlas 900 SuperCluster借助其高密的800GE端口能力,两层交换网络即可实现2250节点,等效于18000张卡,超大规模无收敛集群组网。新集群同时使用了创新的超节点架构,大大提升了大模型训练能力。
多年来华为聚焦鲲鹏、昇腾处理器技术,发展欧拉操作系统、高斯数据库、昇思AI 开发框架等基础软件生态,通过软硬件协同、 架构创新、系统性创新,保持算力基础设施的 先进性,为行业数字化构筑安全、绿色、可持续发展算力底座。
华为常务董事、企业BG总裁汪涛表示,在千行万业,人工智能也开始走深向实,服务于越来越多的业务场景。但是,行业智能化的进程中正面临着数据、算力、算法、应用部署等挑战。
在华为全联接大会2023大会上,华为云CEO张平安发布了盘古大模型在矿山、政务、汽车、气象、医学、数字人、研发等领域的创新服务,并宣布华为云昇腾AI云服务正式上线,加快让千行万业实现大模型普惠,构建AI时代最佳云底座。
据悉,华为盘古大模型是一系列大模型的统称,包括CV、NLP、多模态、预测和科学计算五大基础模型。
在7月举行的华为开发者大会上,华为云正式对外发布盘古大模型3.0,提供5+N+X的三层解耦架构,通过分层的AI能力及工具,成就不同客户百模千态的需求。
在9月21日的华为全联接大会2023现场,盘古大模型进一步发布了在矿山、政务、汽车、气象、医学、数字人、研发等领域的创新服务,帮助行业企业解难题、做难事。
例如,盘古汽车大模型通过构建数字孪生空间,生成复杂场景样本,让自动驾驶学习新复杂场景的周期从两周以上缩短到2天内,重塑自动驾驶训练;盘古矿山大模型全面覆盖山东能源集团采、掘、机、运、通、洗选等9大业务系统、21个场景,帮助济宁二号煤矿每年多产8000吨精煤。
将迎来YB数据时代
在华为刚刚发布的《加速行业智能化白皮书》中,从算法、数据到算力,据预测,截至2030年,人工智能的三大核心要素均将迎来创新突破。
人工智能正在开启继互联网、物联网、大数据之后的第四次科技浪潮。大模型从“炫技”到“落地生根”,在行业应用侧持续落地、改变产业发展生态。
据预测,人类将迎来YB数据时代,2030年数据量是2020年的23倍、全球联接总数达2000亿。全球通用计算算力2030年将达到3.3ZFLOPS(FP32),AI计算算力将超过105 ZFLOPS(FP16),增长500倍。
基于在城市、金融、交通、制造等20多个行业智能化实践过程中的总结,华为提出全行业通用的行业智能化参考架构,联合行业伙伴共同构筑行业智能化的基础设施,使能百模千态的AI大模型,加速千行万业走向智能化。
清华大学教授张钹认为,在这个数字化、智能化的时代,人工智能已经逐渐成为推动科技发展的核心驱动力。
当前第三代人工智能,则是对知识驱动和数据驱动人工智能的融合,利用知识、数据、 算法和算力四个要素,构建了新的可解释和鲁棒的 AI 理论与方法,发展安全、可信、可靠和 可扩展的 AI 技术。第三代人工智能是发展数字 经济的关键,是数字经济未来发展的新灯塔和 新航道。
知识和数据双轮驱动下的第三代人工智能技术正在催生人工智能产业的迭代升级,以大模型 为代表的第三代人工智能,它通过文本的语义 向量表示和转换器的多头注意机制,能够对文 本的语义,即文本中所包含的知识进行自监督学习。
从而在聊天(对话或自然语言处理)上向通用人工智能迈出一步,这是人工智能的重大突破,已经成为新一轮科技革命和产业变革 的核心驱动力,助力中国经济实现高质量发展,深刻影响人民生活和社会进步。
中国正在启动400G 全光网和 IPv6+ 网络建设以及从 5G 往 5G-A 传输网络的演进工作,旨在通过大带宽、 低时延高性能网络,支撑海量数据的实时安全 交互。
清华大学计算机科学与技术系教授郑纬民指出,人工智能算力是算力基础设施的重要组成部分,是中国新基建和“东数西算”工程的核心任务抓手。
预计到 2025 年,中国的 AI 算力总量将超过 1800EFlops,占总算力的比重将超过 85%, 2030 年全球 AI 算力将增长 500 倍。中国已 经在 20 多个城市陆续启动了人工智能计算中心的建设,以普惠算力带动当地人工智能产业 快速发展。
本文来自微信公众号“另镜”(ID:DMS-012),作者:谢涵