前言:2025年,智能驾驶领域正站在变革的十字路口,端到端(E2E)技术与视觉语言动作模型(VLA)的融合,已然成为重塑行业格局的关键力量,吸引着车企、科技公司与资本市场的高度关注。
作者 | 方文三图片来源 | 网 络
端到端:智驾变革的先锋力量
端到端技术自特斯拉率先应用并跑通后,迅速成为自动驾驶领域的主流算法范式。
传统的自动驾驶系统采用模块化流水线式架构,感知、决策、规划等环节相互独立,信息在传递过程中容易产生损耗,且人为设定的规则难以应对复杂多变的交通场景。
端到端技术则模拟人脑神经元连接,将整个自动驾驶流程整合到统一的神经网络中,一端输入感知信息,另一端直接输出轨迹或控制信号。
这种架构实现了信息的无损传递,减少了人为偏见,大幅提升了智驾的能力上限,使驾驶行为更加流畅和拟人化,能更好地应对城市中复杂的交通状况。
然而,端到端技术并非十全十美,其“先天缺陷”逐渐显现,可解释性和验证性较差成为制约其向更高阶发展的瓶颈。
当面对一些罕见的长尾场景时,端到端模型难以清晰解释决策过程,这在一定程度上影响了用户对自动驾驶系统的信任度,也给技术的安全性验证带来挑战。
VLA:端到端的进阶与突破
VLA模型的出现,为端到端技术的发展带来了新的曙光。作为融合视觉、语言和动作的多模态大模型范式,VLA被不少智驾人士视为当下端到端方案的2.0版本。
它最早应用于机器人行业,通过输入文本和视觉数据,输出机器人可执行的动作,天生具备AI与物理世界交互的能力。
如今,这一能力被引入智驾领域,为自动驾驶系统赋予了更强大的环境理解和决策能力。
VLA模型的核心优势在于其强大的“思维链”推理能力。它可以从传感器数据中提取丰富的环境信息,借助语言模型理解人类指令,并生成可解释的决策过程,最终转化为驾驶操作指令。
在遇到复杂的交通规则、潮汐车道或需要长时序推理的场景时,VLA模型能够比以往的系统更好地理解和应对。
例如,在推理时长上,传统基于规则的方案只能推理1秒钟路况信息并做出决策控制,端到端1.0阶段系统能够推理出未来7秒路况,而VLA能对几十秒路况进行推理,大大提升了自动驾驶系统的决策前瞻性和适应性 。
此外,VLA模型还增强了端到端系统的可解释性。通过向用户展现系统的推理过程,解释为什么这样驾驶,让用户更清晰地了解自动驾驶系统的决策逻辑,从而增强对智驾的信任,推动智能驾驶从单纯的“功能时代”迈向注重用户体验的“体验时代”。
国内外企业的布局与深耕
在这场端到端+VLA技术驱动的智驾变革中,众多国内外企业纷纷加大投入,积极布局,力求在竞争中抢占先机。
理想汽车在智能驾驶领域持续发力,其首席执行官李想透露,将于12月31日正式推送全新的OTA7.0升级,此次升级的核心亮点在于高速城市全场景智能驾驶的端到端技术升级,以及VLM(视觉语言模型)的引入,并将“端到端+VLM”模型比作教练指导学员开车,而VLA模型则更像是教练亲自驾驶,更为熟练高效。
理想汽车通过不断优化技术,致力于提升用户的智能驾驶体验,推动智能驾驶技术在量产车上的应用与普及 。
元戎启行在量产车规模方面取得了显著进展,截至目前,搭载其智能驾驶系统的量产车数量已超过3万台。该公司在VLA模型的研发与应用上持续投入,不断优化智能驾驶算法,提升系统的性能与可靠性。
同时,元戎启行还与多个量产项目合作,预计年底前至少会有三款搭载其智能驾驶系统的车辆进入市场,加速智能驾驶技术的商业化落地 。
智平方是国内最早确定“端到端”技术范式,并在VLA关键领域率先实现突破的公司之一。其2024年6月推出的针对操作机器人的RoboMamba端到端具身大模型在应用时点和泛化能力上均领先行业。
智平方已签约多家国内外一线车企、高端制造企业及互联网巨头,经过了多家客户严格的POC流程,并于2024年实现数千万级别的确认收入,在端到端VLA技术的商业应用方面走在了前列 。
此外,像英伟达等科技巨头也在积极布局智能驾驶芯片领域,为端到端+VLA技术提供强大的算力支持。
其最新一代车载AI芯片Thor单片AI算力达1000Tops,对AI、大模型等算力有不错支持,尽管量产时间延后且成本较高,但依然为智驾技术的发展带来了新的可能 。
重塑智驾竞争格局
当端到端与VLA深度融合,一场智驾领域的变革悄然来临。这种融合并非简单的叠加,而是从底层架构上重新定义了自动驾驶的技术逻辑。
在VLA架构下,多模态大模型不再作为端到端的外挂,而是成为其内生的一种能力,实现了更彻底的融合。
端到端负责直接根据感知生成车辆的运动规划和决策,VLA则为其提供更强大的环境理解和逻辑推理能力,二者相辅相成,使智驾系统更接近“图像输入、控制输出”的理想状态 。
高盛最新自动驾驶报告显示,到2030年,VLA模型主导的端到端方案可能占据L4级市场60%份额。
目前高阶智驾的算力硬件基本为2颗英伟达Orin - X芯片,算力在508Tops左右,难以支撑VLA模型的部署。英伟达最新一代车载AI芯片Thor虽单片AI算力达1000Tops,并对AI、大模型等算力有不错支持,但其量产时间延后,且成本较高,给车企带来了不小的压力 。
此外,如何将端到端与多模态大模型的数据与信息进行深度交融,也是考验头部智驾团队的难题。
这需要强大的模型框架定义能力和快速迭代能力,以实现数据的高效利用和模型性能的持续优化。
结尾:
2025年,端到端+VLA已成为智驾竞争的核心战场,国内外企业在这一领域的深耕与创新,承载着行业对未来出行的美好愿景,在技术的不断突破与应用的持续拓展,这场技术变革将重塑自动驾驶产业格局,引领智能驾驶迈向新的发展阶段,为人们带来更加安全、便捷、智能的出行体验。
内容参考来源于:42号车库:英伟达智驾朋友圈齐聚 GTC,年中就有 VLA,动动嘴就能控车;水滴汽车:关于高阶智驾不可不知的四个词:端到端、D2D、VLM、VLA;英伟达的会场,理想、小米等中国车企开启智驾大战|GTC2025;自动驾驶之心:下一代智能驾驶量产架构MindVLA,涉及哪些技术栈?;海国车志:端到端技术分野:2025年会成为VLA上车元年吗?
原文标题 : AI芯天下丨趋势丨端到端+VLA将成为2025智驾竞争的核心?