导语
Introduction
你有GPU,我有DSA。
作者丨王小西
责编丨李思佳
编辑丨朱锦斌
说到AI芯片领域,最近的一件大事是,10月13日地平线和大众旗下软件公司CARIAD官宣合作。双方成立合资企业,CARIAD控股60%,投资约24亿欧元,预计会在2023年上半年完成。
这算是地平线迄今为止最重磅的一个合作。而一个插曲是,半年前地平线才宣布第三代产品征程5芯片首个定点合作,花落比亚迪,上车时间2023年。不过,有意思的是,比亚迪同时也将投产搭载英伟达DRIVE Orin计算平台的车型。
而公社C次元最近一篇文章《英伟达不要的,地平线都要》,对地平线和英伟达在汽车领域AI芯片应用的竞争情况也做了介绍,所以,这篇我们就科普科普,到底这两家企业竞争些什么,以及车企的选择背后是怎样的考虑?
都是AI芯片,有啥不一样?
论及双方,他们的产品都是用于自动驾驶领域的AI芯片。但是区别还是很大的。
AI芯片的应用场景,主要分为云端和终端,还有边缘端。目前,云端应用的更多,相对成熟。此外,云端应用又可分为训练和推理两种,其中训练的市场规模占比较高。
云端应用的霸主,就是英伟达。而云端(服务器、数字中心)和终端(手机、智能汽车等移动端)应用场景中,AI芯片的运算方式有着本质性的差别。
比如,云端处理大批量一次性到达的累积数据(扩大批处理量,batch size),可以“等”数据“够了”再开始处理。但车端芯片则需要处理流数据,随着行驶(时间)陆续到来的数据;需要实时完成计算,尽可能得降低延迟。
对于交互性,终端要求更高。云端任务本身是限定在虚拟世界,无需考虑与现实世界的交互。终端则身处现实世界,每一个任务都需要考虑交互性。
此外,功耗和成本在车端AI芯片的考量中也占据更重的分量。可见,对于汽车终端来讲,AI芯片除了须保证计算能效,还有低功耗、低延迟、低成本的要求。
目前,AI芯片主要有三种,分别是通用型的GPU,可定制的FPGA,以及专用的ASIC。英伟达的Orin芯片,是基于通用GPU。而地平线的征程5芯片,既是ASIC芯片,也是DSA(Domain Specific Architecture 特定领域架构)芯片。值得注意的是,Orin芯片的核心GPU架构仍是云端架构。
不过,对车企来说,芯片的兼容性越强越好,因为车企可以一步到位,而且无需再从头做验证,用一个芯片就能实现未来高阶智能驾驶的硬件预埋,为未来更高阶的智能驾驶做好准备。这也是很多品牌愿意选择英伟达Orin芯片的原因。
而地平线采用面向特定场景的软硬结合方法论来设计芯片,也就是DSA芯片的做法,极大提升了芯片的有效算力。但是,我们的疑问是,征程5芯片的极限到达后,更高级别的自动驾驶需求就要换用征程6,那么,这个换装的综合成本,谁来买单承受呢?
除了算力,还有FPS
除了通用和定制的区别,目前业内存在“唯算力论”,好像芯片算力越高觉得越好。其实,这有失偏颇。实际上,还是要看FPS(每秒传输帧数)才行。
FPS通俗来讲就是指动画或视频的每秒画面数。FPS是测量用于保存、显示动态视频的信息数量。简单来说,FPS数值越大,性能越好。对于自动驾驶所有应用的计算平台来说,FPS被认为是衡量先进算法运行效率的评价标准之一。
比如,在芯片算力上,单片英伟达Orin和征程5的算力分别为254TOPS(每秒万亿次计算)和128TOPS,功率为45W和30W,功耗比分别为4.6TOPS/W和4.2TOPS/W。征程5只有英伟达Orin的一半。
但是,征程5的FPS(每秒传输帧数)却为1283。比Orin的1001FPS(基于同安培架构的英伟达RTX3090进行调整后测算得出)高出不少。地平线征程5画面传送视频的流畅度明显要好于英伟达Orin。怪不得地平线BPU算法负责人罗恒要说,“能效上来看,我们(征程5相比Orin)有6倍多的提升。”
其实,不仅是地平线以FPS来算帐。2017年发布自研的FSD芯片时,特斯拉创始人马斯克便以此前应用的英伟达Drive PX2作比,从算力来看FSD是Drive PX2的3倍,但FPS是Drive PX2的21倍。
此外,低延迟性能也是衡量AI芯片性能的关键指标。因为,延迟问题直接关乎驾驶证安全。比如,在紧急制动场景下,100毫秒意味着近1.7~3.3米的刹车距离。
而按照地平线的说法,征程5的8M单目前视感知结构化输出延迟小于60毫秒,比英伟达ORIN的延迟性能更好。而Orin芯片的低延迟数据未知。
所以,从FPS和低延迟、低成本来说,地平线在汽车领域的发展机会还是很大的,目前有超过20家车企的70多款车型应用了征程系列芯片,这也是地平线通过定制路线的“奇兵”收获的成果。
架构,决胜
而在第五波计算浪潮之下,决定芯片的核心,当然是架构。因为,架构是芯片企业最底层的核心技术,迭代成本巨大,也是最值钱的技术。
作为提出DSA架构的泰山北斗,John Hennessy与David Patterson在获得2017年图灵奖时的获奖演说中指出:“未来十年,将是计算机体系结构的黄金年代”。这是一个很好的注脚。
而地平线的征程系列芯片,从其架构来说,经历了名为高斯、伯努利和贝叶斯的三代BPU(Brain Processing Unit, 地平线自主设计研发的高效的人工智能处理器架构)架构。
从低到高,高斯架构主要处理感知,就是图像识别,识别摄像头,雷达,传感器等的图像,采用40nm工艺。而伯努利架构加入了深度学习,20nm工艺。贝叶斯架构则是加入贝叶斯网络,结合深度学习来提高AI的准确率,16nm工艺。
再来看英伟达。创立于1993年的英伟达厉害之处在于,1999年发明GPU(图形处理器),2006年发布CUDA?通用并行计算架构,实现了软硬解耦。开发者不必再使用高难度的GPU专用开发语言,而能使用通用性的编程语言调用GPU算力。
通过软硬解耦,将图形处理的专用芯片GPU变为适用于大规模并行计算的通用型芯片,英伟达站上AI时代的C位。对于地平线以及其他芯片企业来说,也是高山仰止、拼命追赶的对象。
而英伟达的Orin是基于Ampere(安培)架构,这也是推动英伟达数据中心业务增长近9成的主力产品架构。换句话说,面向高级别自动驾驶场景的Orin,用的还是魔改的通用架构。这就像,今年大热的高通8155芯片,是从消费电子芯片魔改而来。
通用架构的好处是“上手容易”,拿来就能用,而且工具丰富。不过,缺点是,很多硬件性能前期是浪费的,暂时用不上的。
那么,为什么站在云端的英伟达仍然在用通用架构?看看汽车业务占比就明白。
5月26日,英伟达发布2023财年Q1财报(截至2022年3月),本季营收82.9亿美元,同比增长46%。其中,由超大规模计算、云端和AI业务推动的数据中心业务占比45.23%;显卡支撑的游戏业务占比43.67%。汽车业务呢?微不足道,占比2.1%。
地平线的营收情况,没有公开的披露。不过,2020年《晚点LatePost》曾报道,地平线2020年营收为2~2.3亿元,其中70%来自向车厂提供芯片等产品的收入,客户包括长安、一汽和理想汽车等。
从营收来看,地平线和英伟达的差距还不是一个数量级的,还根本无法威胁到英伟达的地位,是海洋界鲸鱼和海豚的关系。所以,英伟达没什么动力去做面向车企的ASIC芯片。这也给了地平线和其他芯片企业巨大的机会。
当然,地平线还处于发展初期也就是要不断砸钱的阶段。根据企查查的数据,如果不计算未披露的融资金额,地平线累计融资超34亿美元(约合人民币243.3亿元)。最近一笔,是奇瑞汽车的。
地平线目前的核心业务只有端侧的汽车领域。市场方面,地平线征程系列芯片目前累计出货超过150万片。而通过针对自动驾驶场景算法和需求专门设计的专用芯片,实现在效率上的更高效,只是地平线追赶英伟达的第一步。
就像前面说的,比亚迪并不是唯一一个同时部署英伟达和地平线的车企。理想在2021理想ONE以及后续的理想L8 Pro上搭载了征程5,而在理想L8 MAX和L9上则使用的是英伟达Orin。
所以,地平线更难的是构建出好用的软件体系,以及能支撑持续演进迭代的用户生态,而这正是英伟达CUDA体系的王牌所在。地平线的天工开物还有很长的路要走。不过,无论怎样,地平线给中国汽车企业带来了一个DSA芯片的可选项,都是件“极好的”事。
原文标题 : 车端的地平线,瞄着云端的英伟达