曾经,作为电脑的大脑,计算机需要CPU。计算机内存储的数据、外围的设备和其他组建要么将数据输入CPU,要么接受CPU的指令。
后来,为了减轻CPU的压力,GPU应运而生。虽然GPU的出现是为了减轻CPU在图像处理方面的压力,但是由于其优秀的并行处理能力,如今GPU不局限于图像渲染,还应用于人工智能、深度学习、大数据分析等领域。
到了现在,随着核心网、汇聚网朝着100G、200G发展,接入网也达到50G、100G,CPU无法提供足够的算力来处理数据包。因此,出现了“性能带宽增速比失调”的问题。AWS形象地称之为“数据中心税”——还未运行业务程序,接入网络数据就要占去许多计算资源。
举一个例子,在云计算场景下,虚拟机之间的数据转发,通常而言20个VM需要消耗的算力,如果用Xeon的多核CPU来处理大概需要5个核的算力,这是将一笔比很大的开销。
阿里云弹性计算产品线负责人张献涛曾经算了一笔账,阿里云营收规模已经达到上百亿元,如果存储、网络占用约10%的CPU资源,则意味着年损失10多亿元。
因此,为了继续减轻CPU的负担,DPU登上舞台。对于CPU处理效率低下同时GPU也处理不了的负载,就可以卸载到专用的DPU进行处理。
DPU的概念是由英伟达带火的。在2020年上半年,英伟达以69亿美元的对价收购以色列网络芯片公司 Mellanox Technologies,并与同年推出BlueField-2 DPU,从此拉开了DPU发展的序幕。
英伟达首席执行官黄仁勋表示:“DPU将是未来计算的三大支柱之一。CPU用于通用计算、GPU用于加速计算,而DPU在数据中心移动数据,进行数据处理。”
DPU竞争开始
DPU最早落地的领域是云计算,很多云服务商早就意识到了问题,AWS从2015年就已经探索DPU的发展,收购芯片厂商Annapurna Labs,推出Nitro芯片。虽然当时还没有“DPU”这一名字,但Nitro被公认为是DPU的早期形态。之后,2017年AWS正式推出了Nitro,将网络、存储和安全任务卸载到基于Arm架构的专用设备上。
同样是2017年,为了解决随着云计算业务规模的扩大,资源争抢、算力损失的问题,阿里云推出了神龙(X-Dragon),通过虚拟化来达到转接CPU存储、网络等基础功能的目的。很快,阿里云就把天猫双十一当做试验场并成功运营,后来上汽成了第一家神龙架构的试验客户。
回看过去,我们可以将2017这一年称之为DPU元年。
三年后英伟达将其命名为DPU之后,才有了一个统一的叫法。目前来看,真正实现大规模商用DPU架构的,全球只有两家:亚马逊的AWS,以及阿里云。
而云服务商中,不止亚马逊与阿里云布局DPU,同样看中云服务的腾讯云也加入了DPU的研发。以统一算力底座,降低总体成本为目的,腾讯自研了水杉和银杉两代DPU。目前,腾讯自研DPU已经支撑公有云外部客户,以及微信、QQ、腾讯会议等自研业务上云。
去年加入云计算的新成员字节跳动也宣布将自研DPU,计划通过火山引擎云产品的方式对外服务。
在云厂商的来势汹汹下,芯片厂商也并非无动于衷。
全球DPU市场竞争格局,来源:赛迪顾问
当初带火DPU的英伟达,自然对DPU有所部署。英伟达计划在2022年推出性能更强的BlueField3;到2022年,英伟达计划推出第三代DPU;2024年推出集成其GPU模块的BlueField4。
Marvell最新推出的OCTEON 10系列DPU,采用了Armv9架构的Neoverse N2 CPU内核和台积电5nm制程工艺,支持最新的PCIe 5.0 I/O与DDR5内存。作为DPU的重要补充,Marvell还为OCTEON 10引入了内部机器学习(ML)引擎。这样,从本质上讲,Marvell正在成为英伟达的直接竞争对手。
英特尔也参与战局,在2021年6月发布首款IPU产品,将其视为云战略的重要支柱之一,助力数据中心网络加速走向可编程的分布式架构。2022年4月,英特尔公布收购云解决方案公司Granulate的协议,以提升自身在云计算系统的综合协调性;2022年5月,英特尔发布第二代IPU,并公布将在2023—2024年间上线第三代IPU的消息。基于端到端可编程能力,英特尔不断在“云端”实现高效运算,解锁数据中心基础设施的新潜力。
国内DPU初创企业
DPU的赛道上也逐渐出现了中国企业的身影,并且随着DPU风口的渐起成功融到资金。目前来说,国内比较受到关注的DPU初创企业包括:云豹智能、中科驭数、芯启源、云脉芯联、星云智联、大禹智芯。
今年6月,大禹智芯宣布完成A轮融资,融资金额未公布,该轮融资由前海方舟旗下的智慧互联产业基金、中原前海基金和齐鲁前海基金共同投资,融资资金将用于产品研发和推广。
云豹智能同样在6月完成了B轮融资,据悉本轮云豹投后估值约90 亿元,而本轮投资方包括腾讯、淡马锡、深创投、华西村股份旗下投资平台一村资本、民生银行上市金融控股平台民银资本、耀途资本,这是腾讯第3 次投资这家成立不到 2 年的 DPU 公司。
9月,中科驭数宣布完成超以往轮次融资规模的数亿元B轮融资,由金融街资本领投,建设银行旗下建信股权跟投,老股东灵均投资、光环资本、泉宗资本连续三轮追投。
芯启源在去年11月完成数亿元的Pre-A4 轮融资后,今年3月宣布再获超亿元战略投资,本轮融资由国家集成电路产业基金旗下子基金上海超越摩尔领投,老股东允泰资本继续坚定跟投。
可以看到,在DPU的热潮下,不少初创企业纷纷拿到巨额融资。但作为数据处理的一大将,DPU需要与CPU、GPU同量级的投入,可是市场规模远不如CPU、GPU。据统计,2021年全球DPU市场规模达到50.7亿美元,CPU市场规模则可达532亿美元,这其中是10倍的差距。
有业内人士做过一个估算,在终端场景,大芯片的销量至少需要达到数千万级别才能有效摊薄一次性的研发成本;在数据中心场景,则需要50万甚至100万以上的销量,才能有效摊薄研发成本。
根据海外做 DPU 的初创公司如 Fungible 和 Pensando 等需要的资深开发人员规模、研发时间、需要购买的 IP 和测试工具以及这些公司融到的资金去估算,开发这样复杂的高端通用的 DPU 芯片大概需要 3 亿美元以上的成本,才能实现客户量产。
这注定了DPU不可能是一个简单的创业“游戏”。
DeepTech曾经总结了打造一个成功的 DPU 芯片企业,至少需要兼具的六大条件:一是具备高端芯片开发经验;二是要有大量商业落地的经验;三是有成功创业经验的团队;四是对云计算客户业务非常熟悉;五是与云计算大厂客户紧密合作,有丰富的场景实战经验;六是必须要巨额融资。
创始人经历来看,不少初创公司或缺乏高端芯片开发经验,或缺乏头部云服务商合作的经验等,是否能走到最后还是一个问号。
云豹智能创始人萧启阳,博士毕业于美国斯坦福大学,后续在硅谷创办 RMI 公司;中科驭数创始人鄢贵海是中科院背景;芯启源,创始人卢笙有销售 USB 和 TCAM 芯片的背景;大禹智芯创始人李爽是前美团公有云的负责人,对云业务有一定的认识,这四家家公司创始人都有相关背景。
云脉芯联、星云智联等企业的创始人在公开资料中,并没有开发高端芯片和创业的经验。云脉芯联创始人刘永锋是技术出身,曾在阿里和华为工作过,在公开信息没有查到其创始人有开发高端芯片和创业的经验;星云智联,两位创始人是夏庐生和于勇。夏庐生曾担任安信证券研究中心通信行业首席分析师,公开信息查不到于勇在芯片行业的背景。
即使强如英伟达,其DPU发布两年左右,使用的人数也尚且不多,更何况是本就在芯片方面发展相对欠缺的中国芯片初创企业。目前能够拿出成绩的仅有中科驭数、云豹智能两家企业。
成立仅一年后,中科驭数第一颗芯片就已成功完成流片,并取得了业界数据库与时序数据处理融合加速芯片零的突破。中科驭数的第三代DPU芯片的研发迭代也已经接近尾声。中科驭数第二代DPU芯片K2已于今年年初投片,预计在10月回片。
云豹的第一款 DPU SoC(系统级芯片)正在开发阶段,计划于明年量产。去年底云豹已发布基于 FPGA 版本的 DPU 云霄。
与 CPU、GPU 等一样,DPU 结构复杂、开发周期长、投入大。起步于2020 年和 2021 年的中国DPU初创企业,算上前期团队组建时间,开发周期也仅在 1 年左右,何时能出现量产的产品是市场都在期待的。
总结
实际上,梳理中国DPU行业商业模式后,能将其分为两种。
一种是以芯启源为代表的,通过自研中高级软件、外购处理器和网络芯片的方式,这类方式门槛适中,DPU产线核心研发团队需至少10人,预判在5至8年收回前期成本。
另一种是以中科驭数和云豹为代表的,自研处理器微架构和中高级软件,外购网络芯片的方式,这类方式门槛较高,DPU产线核心研发团队需具备至少40人。
DPU没有统一的标准、需要与云计算基础设施紧密绑定、产品的通用性问题、没有明确的大客户,这些都是DPU创业会遇到的问题。
目前要解决DPU标准化应用,还存在一定挑战。由于数据中心本身的复杂性,各大厂商一方面采用商用现货组件(即COTS)来构建系统,追求低成本,一方面又设法分层服务化,打造面向不用类型客户的标准化产品,但除此之外的所有技术实现几乎都是“八仙过海,各显神通。”
中科驭数创始人鄢贵海也表示:“有的厂商强化IO能力、有的关注路由转发、有的重视存储卸载、有的关注安全加密,不一而足。”而上层负载不同,也必然对底层架构有各异的需求,这也许是目前DPU标准化面临的最大挑战。
原文标题 : DPU风起,吹皱一池春水