地平线追击英伟达，天工开物“追“CUDA

都是2023年。

3月22日，英伟达宣布比亚迪将投产搭载DRIVE Orin计算平台的汽车。

一个月后，地平线宣布，第三代产品征程5芯片首个定点合作，花落比亚迪。

两项合作的上车时间，都是2023年。

比亚迪并不是唯一一个同时部署英伟达和地平线的车企。理想在其爆款2021理想ONE上搭载了征程3以实现高速领航驾驶辅助能力，而在最新的理想L9上则将使用英伟达Orin。目前，地平线芯片的定点企业达到60家，基本可以肯定，其中也有英伟达的客户。

有评论认为，这是因为地平线是国内鲜有通过了车规级的大算力AI芯片，而且更加便宜，所以车企选择其作为英伟达Orin的“平价替代”和供应链安全B选项。

这一说法并非全无道理。

但2015年地平线成立时，英伟达的芯片已经开始准备上车特斯拉。短短6年多时间里，一个中国创业公司如何能够与AI芯片王者进入同一份采购清单？

更重要的是，在更远的未来，地平线将只是英伟达的“平替”，还是将一路追赶，成为其在汽车AI芯片领域真正的对手？

本文为大家奉上地平线和英伟达全方位的对比，帮助您做出判断。

逻辑：阿尔法狗会开车吗？

如果说起广为人知的人工智能（AI），阿尔法狗肯定算一号。

2016年，谷歌围棋人工智能“阿尔法狗”（AlphaGo Lee）以4：1的成绩，战胜世界冠军数量排名第二的韩国棋手李世石。

2017年，阿尔法狗与李世石对弈

围棋的特性决定了其不适用穷举法，相比算力更考验棋手的“脑力”，因此这场“人机大战”成为人工智能史上一座里程碑：AI在某些领域能比人类更“聪明”。

但围棋翘楚AlphaGo Lee能开车吗？

答案恐怕是否定的。定位为围棋人工智能的阿尔法狗以进行推理任务的决策算法为主，其所采用的神经网络类型也许并不能胜任视觉感知的任务；

AlphaGo Lee的服务器

为进行比赛，阿尔法狗所需算力高达约4416TOPS功耗高达10000W（DeepMind论文），100度电量的车也只能支撑10小时（纹丝不动），更别说带着衣柜大小的服务器；

更重要的是，在比赛中，阿尔法狗拥有共计两个小时＋180秒的“思考”时间，而汽车一秒多想的时间都没有。

不能开车的阿尔法狗显示出了人工智能／神经网络在实际应用中的苛刻要求：相比于人类智能的高通用性，人工智能在功能实现上，与应用场景、AI算法模型、部署硬件情况息息相关。

正是这种高度相关性为地平线追赶英伟达提供了逻辑基础。

1．1站在云端的英伟达

英伟达是第一个为AI创造出合适物理“大脑”的公司。

创立于1993年的英伟达在1999年发明了GPU（图形处理器）。相比于CPU，GPU从架构上算子的数量要远远多于Cache（缓存）和Control（控制器），由此导致其只适用于计算密集与数据并行的运算程序。

所谓计算密集指：数值计算的比例要远大于内存操作，因此内存访问的延时可以被计算掩盖，对缓存的需求较低；

数据并行则是说：大任务可以拆解为执行相同指令的小任务，因此对复杂流程控制的需求较低。

AI机器学习正是这样的“运算程序”：将一个复杂问题拆解为众多的简单问题，一次性输入海量用于计算的参数。对简单问题解决的顺序性要求不高，最后输出整体结果即可。

而且对存储和控制空间需求小，导致GPU更容易增加算子，以此增加算力，并在此后成为“大算力”的领军企业。

但要高效运行GPU的代码极度困难，程序员需要把相关运算“黑进”图形API（应用程序编程接口），让显卡以为是在进行图像渲染计算，编程难度极高。

直到2006年英伟达发布了CUDA?通用并行计算架构，实现了软硬解耦。开发者不必再使用高难度的GPU专用开发语言，而能使用通用性的编程语言调用GPU算力。

英伟达CUDA架构与应用方向

至此，GPU“破图而出”，成为通用并行数据处理超级加速器。英伟达也由此站上了C位，成为AI时代的加速器。

一方面，搭载英伟达 GPU 硬件的工作站、服务器和云通过CUDA软件系统以及开发的CUDA－XAI 库，为AI领域的机器学习、深度学习所需的训练和推理提供软件工具链，来服务众多的框架、云服务等等，推动了 AI 领域的迅速发展。

另一方面，英伟达从此前单纯的芯片制造商，向人工智能平台公司发展，逐步将业务拓展到云端的AI加速、HPC（高性能计算机群）高性能计算、AR／VR（增强／虚拟现实技术）等领域。

英伟达CEO黄仁勋也在CUDA生态积累14年后放言：“ 英伟达不是游戏公司，它将推动下一个人工智能大爆炸”。

但至少目前，从业务结构上英伟达还是一个中心化的云端数据中心和游戏公司。

英伟达数据中心

5月26日，英伟达发布2023财年Q1财报（截至2022年3月），实现营收82．9亿美元，同比增长46％。其中，由超大规模计算、云端和AI业务推动的数据中心业务占比45．23％；显卡支撑的游戏业务占比43．67％。

以云端数据中心业务为核心，英伟达的核心技术需要服务这一场景。

但云端（服务器、数字中心）和端侧（手机、智能汽车等移动端）场景中， AI芯片的运算方式有着本质性的差别。

· 首先，云端处理大批量一次性到达的累积数据（扩大批处理量，batch size），车端芯片则需要处理流数据，随着行驶（时间）陆续到来的数据；

· 第二，云端处理可以“等”数据“够了”再开始处理，车端则需要实时完成计算，尽可能得降低延迟，更勿论几秒钟的“等待”；

· 第三：在云端，任务本身是限定在虚拟世界，无需考虑与现实世界的交互。在车端则身处现实世界，每一个任务都需要考虑交互性。

· 此外，功耗和成本在车端AI芯片的考量中也占据更重的分量。

可见，云端AI芯片更侧重于数据吞吐量和支持多种AI任务的要求，车端的AI芯片则须保证很高的计算能效和实时性要求，能够实现端侧推断，以及低功耗、低延迟甚至低成本的要求。

但目前，英伟达端侧芯片的核心GPU架构仍是云端架构。

Orin诞生于Ampere（安培）架构，其正是一季度推动英伟达数据中心业务增长近9成的主力产品架构。换而言之，面向高级别自动驾驶场景的Orin，其中的核心计算模块技术对标的是云端数据中心场景。

2019－2022财年（英伟达财年较自然年提前一年）汽车营收占比

英伟达的这一选择无可厚非。架构是芯片企业最底层的核心技术，迭代成本巨大，也是为了产出更赚钱的产品。虽然汽车业务已成为英伟达图形技术大会上的重要一节，但其创造的营收目前仍是微不足道——占比2．1％（2022财年）。

1．2站在“端侧”的地平线

而地平线目前的核心业务只有端侧的汽车。

地平线的完整名为“地平线机器人”，其创立设定的场景便是机器人这样需要实时完成计算的端侧场景，其产品所有的软硬件架构都为端侧的特殊需求设计。

但“机器人”此前更多存在于科幻电影当中，直到自动驾驶使汽车成为机器人在现实世界中的第一个爆发点。

“单一”的业务结构使地平线的技术能够聚焦在“一种”需求上，而汽车智能化需求的爆发则为从智能／自动驾驶场景出发，收敛AI任务范围，打造更贵、更具针对性的专用型芯片提供了规模化基础，使其商业模型能够成立，从而吸引投资人和专业“选手”进场。

“GPU这样的通用芯片对于开发者非常友好，但不是商业化竞争的最优解，” 一位芯片行业专家向《电动汽车观察家》表示：“地平线采用面向特定场景的软硬结合方法论来设计芯片，也就是DSA（Domain Specific Architecture 特定领域架构）的芯片，极大提升了芯片的有效算力。”

软硬解耦，将图形处理的专用芯片GPU变为适用于大规模并行计算的通用型芯片，使英伟达站上AI时代的C位。

而地平线追赶英伟达的第一步，是软硬结合。

地平线在公众亮相中多次强调软硬结合方法论核心——以终为始：

· 永远从系统的视角评价其中每个模块（从AI模型、工具链、开发工具的全体系出发，看待芯片上每个细微空间的排布逻辑和利用效率）；

· 永远用未来的预测来指导当下每个选择（针对自动驾驶AI未来算法演进趋势，指导当下的技术研发方向和取舍关系）。

地平线的软硬结合开发模式

地平线芯片开发过程中的一个环节可以从一个侧面展示软硬结合的方法到底如何落地。

地平线有一个AI模型性能分析工具。首先将选取包含了丰富的、代表未来演进趋势的算法模型作为Testing Benchmark（测试基准）。将其在地平线BPU架构的建模工具上进行运行，测试这架构对算法模型的运算性能如何，并基于这一测试基准，探索软件层面的编译器、模型量化工具、训练工具应该怎么做。

地平线软硬结合下的工程性能验证模式

由于芯片从设计到最终应用有着二到三年的”时差“，这样的工作流程帮助地平线以软性的算法趋势指导硬件架构设计，提前“适应“未来。

“像地平线已经达到百万芯片出货量的征程二代和征程三代芯片里就有比较多的设计，在2016年、2017年时已经考虑到了相关一些算法的演进趋势。“地平线高级研发总监凌坤表示。

余下全文 1/3

地平线追击英伟达，天工开物“追“CUDA

相关推荐