美国新任总统特朗普宣布了一项名为“Stargate”(星际之门)的人工智能基础设施投资计划,初期投资1000亿美元,未来四年增加至5000亿美元。该项目由OpenAI、软银和甲骨文三家公司共同投资,将从得克萨斯州的一个数据中心开始。 “Stargate”借用电影的名字,也是给人科幻的技术憧憬。
特朗普对新技术和新产业很是有兴趣,如何赚钱,如何做到领先,确实比一心搞权证的政客更“市侩”一些。
“Stargate”(星际之门)的人工智能基础设施将使用多种芯片,包括以下几类:
英伟达AI芯片:多个证据表明,英伟达的GPU(如A100和H100)将是“Stargate”超级计算机的重要组成部分。这些芯片在AI训练和推理任务中具有显著优势,是目前最常用的AI加速器之一
英特尔或Arm架构CPU:为了满足AI服务器的需求,“Stargate”计划使用英特尔或Arm架构的CPU。
AMD芯片:微软和OpenAI正在探索使用非英伟达公司的芯片,例如AMD的处理器。此外,微软还推出了自己的AI服务器加速芯片Azure Maia,以减少对第三方芯片的依赖
SK海力士和三星电子的HBM内存:这些高性能内存芯片将用于支持“Stargate”超级计算机的运行。
其他定制AI芯片:微软和OpenAI可能还会开发或采购其他定制AI芯片,以进一步优化性能和效率。例如,微软曾提到可能通过生产线来解决芯片供应问题。
“Stargate”项目将结合多种芯片技术,包括英伟达GPU、英特尔或Arm架构CPU、AMD处理器、SK海力士和三星电子的HBM内存以及其他定制AI芯片,以满足其庞大的计算需求。
无法详细回答“Stargate”项目中定制AI芯片的具体技术特点和性能优势。然而,可以从多个证据中提取一些相关信息:
大规模部署专用服务器芯片:Stargate项目计划配备数百万个专用服务器芯片,这些芯片将为OpenAI的人工智能运行提供支持。
高性能和高效率:这些AI专用芯片经过精心设计和优化,能够提供极高的计算效率和能耗比。
先进的架构设计和散热系统:Stargate超级计算机将采用先进的架构设计和散热系统,以确保在高强度运行时保持稳定性和可靠性。
垂直整合的优势:通过垂直整合AI价值链,公司可以优化从硬件到应用的整个AI堆栈,确保所有组件无缝协作,从而实现更好的性能、更低的成本和更快的创新周期。
支持生成式AI:Stargate将为OpenAI开发实现AGI(通用人工智能)的大模型提供强大动力,特别是在处理视频模型的预训练和微调方面,需要更高的算力和处理难度。
微软和OpenAI选择同时使用英特尔和Arm架构CPU的原因是什么?
微软和OpenAI选择同时使用英特尔和Arm架构CPU的原因可以从以下几个方面进行分析:
提升AI计算效率:
微软和OpenAI合作开发了Azure Maia 100 AI加速器和Azure Cobalt 100 CPU,旨在为AI应用提供更高效、低成本的计算能力。这些定制芯片的设计是为了更好地适配大型语言模型(LLM),满足未来算力需求。
技术优势和合作:
英特尔的18A工艺对Arm架构进行了优化,这使得微软能够利用英特尔先进的封装和测试能力,进一步推动Cobalt CPU的发展。此外,英特尔与微软的合作不仅限于CPU,还包括其他硬件和软件的协同工作,以提升整体AI服务的性能。
市场和技术趋势:
英伟达在AI芯片市场的主导地位促使微软和OpenAI寻求其他解决方案,以减少对英伟达的依赖同时,苹果、AMD等公司也在积极开发基于Arm架构的CPU,这进一步推动了微软和OpenAI在这一领域的探索。
应对全球市场变化:
随着全球市场的变化,ODM厂商(原始设计制造商)越来越多地采用高通、英特尔等公司的设计方案。这种趋势促使微软和OpenAI在选择CPU架构时更加灵活,以适应不同市场的需求。
SK海力士和三星电子的HBM内存相比其他类型内存有哪些具体优势?
根据提供的信息,无法回答问题。
微软Azure Maia AI服务器加速芯片的技术细节和性能表现如何?
微软Azure Maia AI服务器加速芯片的技术细节和性能表现如下:
技术细节:
制造工艺:Maia 100 AI加速器采用台积电的5纳米工艺和COWOS-S制程技术。封装和容量:芯片尺寸为820平方毫米,集成了两块HBM2E芯片,提供每秒1.8TB的带宽。内存和缓存:配备64GB HBM2E内存和500MB的L1/L2缓存。网络带宽:支持12x 400GbE网络带宽。计算能力:包含16个集群,每个集群有四个图块,支持图像解码器和机密计算功能,数据类型广泛,支持6位和9位计算,适用于多种AI任务。异步编程模型:提供Maia SDK和异步编程模型,支持Triton或Maia API,简化开发和调试过程。
性能表现:
功耗:设计TDP为700W,但实际功耗为500W,实现了高性能与高效能管理。数据处理能力:支持高达4800Gbps的全收集和散点半带宽,以及1200Gbps的单端口带宽。应用领域:专为大规模AI工作负载设计,适用于Azure OpenAI服务等高级AI功能,能够处理大型语言模型训练和推理任务。能效比:通过垂直集成优化性能并降低成本,旨在提高Azure OpenAI服务等服务上的高级AI功能的性能和成本效率。
综上所述,微软Azure Maia AI服务器加速芯片在技术上采用了先进的5纳米工艺和COWOS-S制程技术,具备强大的计算能力和高效的能效比。
“Stargate”项目在AI基础设施建设中如何平衡不同供应商芯片的兼容性和效率?
根据提供的信息,无法直接回答“Stargate”项目在AI基础设施建设中如何平衡不同供应商芯片的兼容性和效率的问题。然而,可以从我搜索到的资料中提取一些相关信息来间接回答这个问题。
芯片供应商的选择:
微软和OpenAI计划建设名为“Stargate”的超级人工智能计算机数据中心,初步投入规模为100亿美元。芯片供应商可能包括英伟达、AMD等加速芯片供应商。这表明微软和OpenAI在选择芯片供应商时,可能会考虑多个供应商以确保多样性和兼容性。
以太网电缆的使用:
OpenAI倾向于使用以太网电缆而非Nvidia的InfiniBand电缆。这种选择可能是为了减少对Nvidia GPU芯片的依赖,从而提高系统的兼容性和灵活性。以太网电缆的使用可以降低传输成本并增强协议兼容性。
功耗和散热问题:
随着生成式AI的爆发,NVIDIA GPU需求激增,微软和OpenAI正在寻找性价比更高的选择,以减少对Nvidia的依赖。这表明在平衡不同供应商芯片的兼容性和效率时,功耗和散热问题也是重要的考虑因素。
能源替代方案:
由于电力需求巨大,微软和OpenAI正在考虑使用核能等替代能源来支持这一庞大的基础设施。这不仅有助于降低能耗,还可以提高系统的整体效率。
硬件设计的创新:
将更多GPU放入单个机架以提高效率和性能是一个挑战。这需要创新的硬件设计和散热解决方案,以确保不同供应商的芯片能够在同一平台上高效运行。
原文标题 : 美国新任总统特朗普的“Stargate”(星际之门)是做啥的,用到哪些芯片呢