最近,关于GPU,或与GPU相关的消息不断,例如,OpenAI正探索自研AI芯片,微软将在今年11月推出自研的AI 芯片,三星推出Exynos 2400处理器,自研的GPU再次升级,等等。这些都是市场和厂商寻求更多变化的体现。
在全球半导体行业整体不景气的2023年,只有AI服务器系统和相关芯片一枝独秀,而AI服务器使用的处理器多数是GPU,不幸的是(对于多数GPU厂商而言),在这一仅有的优秀市场,多数厂商都只能喝汤,有的甚至连汤都喝不上,唯一大口吃肉的是英伟达。据 visualcapitalist统计,在全球现有1500亿美元的AI市场中,英伟达已经占有80%以上,AMD和英特尔远远落后。更重要的是,这一市场规模每天都在增长,无论是GPU芯片厂商,还是系统和互联网大厂,都不想看到英伟达继续扩大市场占有率。
除了AI应用,GPU在传统的图形处理应用方面依然发挥着关键作用,无论是PC,还是手机,该市场空间依然巨大。在手机应用市场,IP大厂Arm和Imagination Technologies占主导地位,高通虽然不是IP厂商,但凭借其手机SoC的市场霸主地位,使得诸多手机厂商不仅要购买Arm或Imagination的GPU核,还要被高通卡一刀,在这种情况下,也纷纷另谋GPU出路。
综上,越来越多的GPU应用大厂(手机和互联网厂商),以及新创芯片设计公司都开始自研GPU,或推出与英伟达GPU分庭抗礼的新型AI处理器,希望在大规模应用市场获得更多商业利益。
01
AI服务器需求可能改变产业链
以ChatGPT为代表的AIGC火遍全球,使得英伟达GPU供不应求,与此同时,其它芯片供应商的类似产品在软硬件生态方面无法在短期内满足AIGC系统厂商需求,这使得英伟达处理器的单价水涨船高。然而,水满则溢,过犹不及,各大系统和互联网厂商不能长期接受这种状况,纷纷开启自研AI芯片之旅。
最近,就连ChatGPT的创造者OpenAI也加入了自研芯片的行列。有消息人士透露,OpenAI正在探索自研AI芯片,并已开始评估一个潜在的收购目标,该公司首席执行官Sam Altman表示,收购一家芯片公司可以加快OpenAI开发自己芯片的进程。一位熟悉OpenAI计划的人士透露,该公司已经对潜在的收购目标进行了尽职调查,不过,目前还不知道究竟是哪家公司。
据悉,至少从2022年开始,OpenAI就讨论了各种新方案,以摆脱对英伟达GPU的过度依赖。运行ChatGPT系统是非常昂贵的,伯恩斯坦公司(Bernstein)分析师Stacy Rasgon的分析显示,每次查询大约花费4美分,如果ChatGPT的搜索量增长到谷歌(Google)搜索量的十分之一,它将需要大约价值481亿美元的GPU,每年需要160亿美元的芯片来维持系统运行。
英伟达预计今年每美元收入可赚取 56.51 美分的利润,使其成为全球最赚钱的科技公司之一。正如亚马逊创始人杰夫·贝佐斯曾经说过的那样,云提供商不必将这些利润交给芯片厂商,而是可以通过花费时间和金钱来控制其成本结构中日益重要的部分而。自研芯片就是主要途径。
与此同时,OpenAI的大股东微软也有望于11月推出自研的AI芯片Athena,以减少对英伟达GPU的依赖,近期,有消息称,微软开始下修英伟达H100芯片订单,并放缓拉货。微软自研的芯片与英伟达GPU类似,专为训练和运行大型语言模型的数据中心服务器而设计。
据悉,微软从2019年就开启了自研AI芯片项目,代号就是Athena。不过,微软并非要完全取代英伟达芯片,而是要降低成本,并在多项服务中加入AI功能。
在微软之前,亚马逊和Google都已经推出了自研AI芯片。目前,在英伟达的大客户当中,已经有6家开始自研芯片,大家都不想过度依赖一家供应商,那样太被动了。
02
手机大厂自研GPU
不止AI服务器应用厂商,手机大厂也想摆脱对GPU芯片和IP厂商的过度依赖,典型代表就是三星和苹果。
最近,三星推出了Exynos 2400 手机处理器,其中的Xclipse 940 GPU采用了AMD最新的RDNA 3架构,特色是提升了硬件光线追踪能力,这种技术在当下的手机游戏当中发挥着越来越重要的作用,是高性能产品的标配。
为了自研GPU,三星在2019年就与AMD展开合作,当时,双方签署了首个协议,AMD将其基于RDNA架构的定制GPU IP授权给三星使用,用于智能手机和其它移动设备。从那时起,三星一直在其Exynos系列处理器中使用AMD Radeon图形解决方案。
三星自研手机GPU,是为了减少对Arm Mali GPU IP的依赖。在Exynos 2100发布之前的很多年,三星一直依赖Mali GPU IP,2022年初,三星宣布推出全新移动处理器Exynos 2200,内置了基于AMD RDNA 2架构的Xclipse 图形处理单元。不过,这款处理器在推出后的表现并不好,仅搭载于部分 Galaxy S22 系列手机中,还在性能测试中输给了高通骁龙 8 Gen1。 之所以如此,主要原因是Xclipse的设计存在缺陷,且优化不足。
在Exynos 2200之后,三星还有Exynos 2300,但因为依然存在设计缺陷,没有进入量产阶段。
今年4月,三星和AMD签署了一项长期协议,以加强双方的战略合作关系,虽然前两款处理器较为失败,但并没有打消三星自研手机GPU的决心。正是在这样的背景下,三星于近期推出了Exynos 2400 手机处理器。
不过,自研手机GPU并不容易,虽然三星没有畏惧失败,但前路可能比过去更艰难,特别是与AMD合作,难度不小,原因在于,AMD的 RDNA架构主要针对PC端,现在要用于移动端,功耗问题很难解决,对设计、架构、优化等工作提出了更高要求,需要双方深度合作,进行优化。而这样的工作似乎没有成功的先例,当年英特尔做手机芯片,遇到的问题与此非常类似。
为了加快优化进程,三星电子不断加大投入力度。2022年4月,三星电子副总裁金泰贤奔赴美国的三星奥斯汀研究中心高阶运算实验室,担任GPU开发团队负责人。2022年底,三星电子系统LSI部门与MX部门一起成立了AP解决方案开发团队,以优化AP并进行下一代AP研究。此外,三星还通过从AMD和Arm招募关键岗位开发人员,建立了一个内部AP优化团队,并不断增加研发人员。进入2023年以来,三星美国子公司持续招募GPU开发人员,一定要与AMD合作,攻下手机GPU这道难关。
与三星相比,苹果在自研手机GPU方面投入得更早,也是一波三折。
早些年,苹果一直购买Imagination的PowerVR GPU IP,后来,苹果打算停止采购该公司的IP,想自研GPU,其目的是进一步控制产品核心技术,降低成本,以确保智能手机的高额利润,同时,为未来创新做准备,特别是在VR、AR应用领域占据有利位置。
为了自研GPU,苹果从Imagination公司招募了很多工程师,不过,在经过两年左右的研发努力后,宣告失败,苹果不得不继续与Imagination合作,通过购买其IP,来设计自家的A系列手机处理器GPU模块。
本文所说的自研GPU,有两个层面的意思:一是完全自研,就像苹果当年打算停止与Imagination合作,从最底层、最基础的IP开始研发,这是最彻底的,也是最难的;二是目前苹果和三星采用的自研方式,也就是从合作伙伴那里购买GPU IP,将其内置于自研的手机SoC当中,这种相对容易,效率也高,但自研的含金量与高通这样的公司相比,就低了一头。
以苹果最新推出的手机处理器A17 Pro为例,GPU是其一大特色,核心数量从A16的5个增加到6个,还进行了全新的架构设计,峰值性能提升了20%,引入网格着色(Mesh Shading),首次支持实时硬件级光线追踪,这就追上了高通、联发科的脚步。
通过3DMarkWildlife跑分来比较A17 Pro和高通的骁龙8Gen2的GPU性能,结果显示,A17 Pro的跑分为11860,骁龙8Gen2为13500,两者的跑分差距约为15%左右,A17Pro在GPU性能上稍逊一筹。原因在于,高通自研的Adreno GPU经过多年的技术积累和应用打磨,已经非常完善和成熟了,三星和苹果要想在GPU方面与高通竞争,还需要时间和积累。
总体来看,自研GPU的手机厂商还不能摆脱对传统供应链的依赖,完全自主还需要时间。
03
创业公司挑战GPU
以上分别介绍了AI服务器GPU和手机GPU相关厂商的自研情况,所涉及的公司都是传统大厂,具有很强的市场影响力,这为它们开创GPU新路提供了基础保障,即使不成功,也不会伤筋动骨。然而,对于近些年为抢夺AI服务器GPU市场蛋糕而开发新型处理器的创业公司来说,情况就不太乐观了,很多公司已经难以为继,主要原因就是研发的处理器产品难以满足客户的生态系统要求,很难卖出去。
最近,以英伟达为主要竞争对手的英国IC设计公司Graphcore给英国公司注册处提交了一份声明,内容显示,该公司正在与潜在投资者谈判,但尚未达成协议。声明还表示,该公司去年税前亏损同比增加11%,达到2.046亿美元。该公司还表示,2022年已经关闭了其在挪威、日本、韩国的办公室,员工数量从2021年的631人降至去年的494人,同时,该公司2022年营收减少了46%。
Graphcore成立于2016年,曾经是最被看好的英国初创公司之一。该公司的IPU产品(对标英伟达的GPU)曾被用于微软Azure平台。
04
中国GPU有更多机会
近几年,出于本土产业链安全,以及商业利益考虑,中国本土GPU厂商也在发力,且涌现出了几家比较有特色的厂商。
由于以英伟达为代表的国际GPU龙头企业已经牢牢掌控了市场,中国本土厂商在产品开发过程中,要应对各种困难和挑战,如专利和生态系统适配。不过,就像龙芯经过多年潜心研究,将MIPS吃透,进而开发出属于自己的指令集和芯片一样,只要具备坐十年冷板凳的决心和毅力,开发出自主可控的GPU,是值得期待的。
不久前,龙芯中科在调研中表示,自研的GPU IP核在公司量产桥片以及新款芯片中已经进行验证,集成龙芯自研GPGPU的第一款SoC预计2024上半年流片,支持图形加速、科学计算和AI计算。在此基础上,2024下半年将完成兼顾显卡和算力加速功能的专用芯片流片。
景嘉微是中国老牌GPU企业,率先研制出了自主GPU并已实现大规模工程应用,以JM5、JM7、JM9系列等GPU为代表,正在从商用向民用市场拓展。除了景嘉微,海光的DCU系列以GPGPU架构为基础,兼容ROCm和CUDA生态系统,可应用于大数据处理和AI等领域。
新生力量方面,壁仞科技、天数智芯、芯动科技、摩尔线程、沐曦集成电路等受到越来越多的关注。
在云端GPGPU方面,天数智芯是在最近几年异军突起的本土企业,2021年,该公司推出了7nm制程全自研云端训练GPGPU“天垓100”,并于2022年发布了7nm云端推理GPGPU“智铠100”,能够为云端AI训练和HPC通用计算提供高算力和高能效比。
其它几家企业也在近两三年内推出了用于数据中心和AI的GPU,如沐曦集成电路的MXC系列,壁仞科技的BR100,摩尔线程的MTT S2000。
与国际AI服务器芯片厂商相比,中国本土GPU厂商具有更好的成长和发展空间,首先,中国市场空间巨大,有广阔的施展空间;其次,原本需要面对的来自英伟达、AMD等国际大厂的竞争,被美国政府政策屏蔽掉了很大一部分;再有,中国本土系统和互联网大厂没有微软、亚马逊和谷歌那样迫切的自研GPU需求。在经过资本热潮消退,市场优胜劣汰之后,能推出有“干货”的产品、保持健康现金流的企业,会有不错的发展空间。
原文标题 : ?GPU市场开始分化,中国迎来更多商机