各位小伙伴们,大家好哈。
今天我们来聊聊AI芯片的算力。
算力时代,AI算力的重要性不言而喻。而AI算力的核心命脉——AI芯片,已成为全球科技竞逐的焦点。
但最近,美国对华的芯片禁令限制使得中国企业面临算力供应的不确定性,随着美国进一步限制AI芯片对中国销售,NVIDIA只能进一步阉割芯片性能来为中国定制AI芯片。
那么,目前国内的AI芯片发展如何呢?国产AI芯片是否像他们宣称的一样,性能已经可以媲美NVIDIA GPU了吗?
今天我就跟大家聊聊,国产AI芯片和英伟达的差距在哪里?有多大?
一、算力性能:差距显著
单卡算力密度
首先,单卡性能方面,咱们得承认,国产AI芯片和英伟达的还是有不小的差距。这也是为什么阉割版的H20在国内依然一卡难求的原因。下图是英伟达主流AI芯片的参数情况:
可以看到,A100是最差的,但表现已经非常俗了,FP16算力高达312T,NVLINK带宽高达600GB/S,功率是400W,至于GB200,则是最强的,FP16算力达到5P,NVLINK带宽是3.6TB/S,功率是2700W。
那国内AI芯片的性能如何呢?
下面是网友总结的部分国产AI芯片的参数,也许不是最新的,但是我们可以拿来参考。
我们可以看到,目前英伟达主流的H100(SXM)的FP16算力达1979 TFLOPS,是华为昇腾910B的5.2倍。若以2024年发布的Blackwell平台为例,其训练1.8万亿参数的GPT-4模型时,能耗较Hopper架构降低50%,而国产昇腾910B的升级周期长达4年。
网友表示: “用英伟达芯片训练模型,就像开超跑飙车;国产芯片还在学制造汽车。”
所以说,不吹不黑,单说性能等,国产AI芯片,远远不是英伟达的对手,即便英伟达拿出最差的A100出来,都能将大家打趴下,国产AI芯片在性能方面还都是小弟级别。
集群扩展能力
AI算力,除了看单卡的能力,更重要的还是看集群扩展的能力,而在集群扩展能力方面,差距依然巨大。
英伟达NVLink技术提供900GB/s的卡间互联带宽,支撑千卡集群训练效率超90%;而国产芯片(如昇腾)的互联带宽仅200GB/s,千卡集群效率不足30%。而且全球TOP500超算中,英伟达支撑346台,国产千卡集群尚未见成熟案例。
在今年的COMPUTEX 2025 台北国际电脑展上,英伟达推出NVLink Fusion,NVLink Fusion的问世为客户构建英伟达与第三方半定制混合AI基础设施提供了可能。对于决定开展芯片定制化的大型客户,能以NVLink的形式参与到其中,即可以有芯片定制化的IP收入,又可以有NVLink switch的收入,更重要的是可以深入参与到客户的芯片定制化中,更加精准地提供更好的芯片方案。
为了提升集群的计算能力,华为也将华为正努力将 AI 系统的性能推向极致。说的简单点,就是单个GPU比不过,那就用数量来“凑”。
在4月份,华为发布了基于昇腾910C构建的CloudMatrix 384,这个集群采用全互连拓扑结构。这种设计虽然意味着每个昇腾 GPU 的性能只有英伟达 Blackwell 的三分之一,但凭借数量上的优势,整体性能得到了显著提升。
在集群方面,性能上的差距并不是不可逾越的鸿沟。随着技术的不断进步和研发的不断投入,国产AI芯片的性能也在不断提升。说不定哪天,咱们就能用上性能媲美甚至超越英伟达的国产AI芯片了呢!
二、生态壁垒:CUDA的“软实力帝国”
开发者生态
有一种说法是“CUDA 是 Nvidia 最深的护城河”。我个人很赞同这种说法,了解越多越赞同。
CUDA生态积累20年,覆盖全球400万开发者、5.6万开源项目,而昇腾CANN生态适配仅30余个大模型,工具链完善度不足CUDA的60%。迁移至国产平台需重构70%代码,成本相当于三个程序员年薪。
比起硬件算力的差距,软件生态上的差距更让人绝望。当 CUDA 几乎与 AI 画等号的时候,会有大量的社区力量为其助力。这就是一种良性循环:好的性能带来好的生态,好的生态会有助于更好的性能。
软件适配
英伟达提供400+专用库(如cuDNN),国产配套工具不足其1/3,适配周期长达数月。例如,百度文心一言、阿里通义千问等大模型仍依赖英伟达H100集群。
三、市场现状:份额与技术的双重失衡
市场占有率
2025 年 5 月,IDC 发布的 2024 年中国 GPU 市场数据。数据显示,在 AI 芯片这片激烈竞争的战场上,英伟达的销量占比达70%,华为昇腾以 23% 的销量份额成为当之无愧的 "亚军",成为国产芯片的领军者。
除了华为昇腾,天数、寒武纪、沐曦、燧原、太初、摩尔线程等国产芯片厂商也在不断发力,但它们的市场份额目前合计只有 7% 左右。这些厂商在不同的细分领域深耕,有的专注于云端 AI 芯片,有的专注于边缘端 AI 芯片,为中国 AI 芯片市场的多元化发展做出了贡献。
产品迭代速度
在产品更新换代方面,英伟达已经形成了比较成熟的更新频率,英伟达2023年发布H200(显存141GB HBM3),2024年推出Blackwell平台;而国产昇腾910B自2019年推出后,升级版910B直至2023年才小规模应用,其它厂商的产品迭代更是目前没有一个清晰的路线图。
四、技术瓶颈:制造与架构的双重制约
先进制程差距
英伟达已迈入4nm工艺,国产芯片多停留在7nm/14nm。例如,昇腾910B采用14nm工艺,而英伟达H200的4nm工艺使其晶体管密度提升3倍。
封装技术短板
英伟达GB200芯片集成2080亿晶体管,算力达H100的6倍;国产芯片在Chiplet(芯粒)和存算一体等前沿技术上仍处实验室阶段。
五、国产AI细腻品突围路径
政策支持
国家大基金二期向AI芯片倾斜,目标2025年实现7nm量产、5nm突破。2025年一季度国产AI芯片采购量同比激增210%,市场份额升至27%。
场景突破
推理场景:昇腾910B在政务、金融领域实现规模化部署,推理效率媲美英伟达。
行业定制:讯飞星火X1大模型通过算法优化,在国产算力平台以更少资源达到国际效果。
结语:差距缩小,但硬仗才刚刚开始 ?
尽管国产芯片在推理、边缘计算等场景逐步缩小差距(如寒武纪思元370能效比超A100的85%),但高端训练、生态成熟度仍落后3-5年。这场“算力战争”的胜负,取决于国产厂商能否在3nm工艺、Chiplet封装、全栈工具链等核心领域实现突破,同时构建开发者生态的“护城河”。
正如业内人士所言:“国产芯片已从‘不能用’走向‘勉强用’,但要挑战英伟达,仍需一场长征。”
原文标题 : 一文读懂:国产AI芯片与英伟达的差距有多大?