好几年以前,窦文涛把圆桌派搬上了某家车企的新车发布会,谈话间他问出了一个几乎人人都设想过的问题:

如果一辆自动驾驶车失控了,它会选择撞障碍物,还是撞人?

撞哪个 副本.jpg

当时,关于这个问题,车企负责人给出的答案比较含糊,近似于“我们一个都不要撞”,相当于母亲、女朋友落水的话我们都要救。

实际上这个问题也确实不好回答,毕竟在手写规则主导智能驾驶的时代,没有一个程序员会写下一条代码,让一台失控的车辆主动选择碰撞对象,以换取更小的损失。而车企负责人又不能说,我们会尽量规避碰撞,至于失控后撞到哪个目标又不是我们能控制的。

当智能驾驶全面拥抱AI之后,当智驾系统具备类人的思维之后,这种寻求最小损失的博弈是不是有可能存在?或许真有可能,因为AI会让智驾越来越像人。

「端到端时代」轰然到来

二十年前的汽车广告,主打冷风空调和沙发式座椅;两三年前的智能汽车发布会,主打激光雷达和高精地图;今年的智能汽车发布会,最高频的词汇已经变成了端到端、神经网络、感知大模型、大语言模型等等。

今年,小鹏汽车发布了自家的端到端大模型架构,该架构由感知大模型XNet+规控大模型XPlanner+大语言模型XBrain三部分组成;华为发布了ADS 3.0,其端到端架构由GOD感知大网+PDP预测决策规划+本能安全网络构成。

这模型那大网的,都啥意思

自从端到端这个概念突然空降,与智能电动汽车相关的媒体、大V都在尽力解读这个概念,主要知识来源包括企业官方素材、发布会领导讲话、智驾工程师专访等等。对于非研发人员来说,如同天书的代码肯定是读不懂了,而媒体对于新概念的学习,更像是拿“各种想象”去和专业研发人员碰,最终把颗粒度大概对齐。

所以今天我们尽量不引用官方话术和专业词汇,就通过大白话来解读这些概念,我们先从游戏的AI训练展开比较合适。

鸟的封面.jpg

《Flappy Bird》相信大家都了解,这是一款通过点击屏幕穿越管道,最终让人撞管道、上头、砸手机的小游戏。

而通过AI训练,小鸟可以很好的掌握飞行技巧,在足够大的训练量积累之下,小鸟将具备超越人脑的得分能力。

D001.gif

D002.gif

以上是一段采用「Python遗传算法」进行AI自我学习的案例,通过不断的尝试,小鸟能够通过不断试错找到获得高分的技巧。为了应对随机生成的管道障碍物,自我学习将是上限最高的一种方式。

而当游戏难度升级,维度拓宽,AI的思维也需要升级,因此更复杂的神经网络也就产生了。

神经网络2.jpg

以上是一段标准的“神经网络”结构图,由于结合不到实际所以很难理解。但如果和游戏结合一下,下面这段就很好理解了。

超级玛丽.jpg

在维度更宽的《超级马里奥》中,「神经网络」在AI训练中的意义更加凸显,因为马里奥有更复杂的任务,包括踩小怪兽、顶蘑菇、吃蘑菇、避免跌落悬崖等等。

如图右上角所示,马里奥关于生存、得分、过关的需求最终通过8个控制按键来输出,“动机与输出结果”所形成的这个密密麻麻的玩楞就是「神经网络」了。之所以形成网络,是因为马里奥不能用单一动作解决各种问题,而8个控制按键的不同动作为无规则、高机动性的随机组合,于是输入端与输出端之间就产生了这样一个网络。

再进一步解释什么是端到端和神经网络的话,人类本身正是它们的最高体现

比如我们见到地上有一捆钱,我们不会纠结先弯腰还是先伸手,我们大脑自带的神经网络会驱使我们做出一套非常复杂的动作:奔跑、弯腰、捡钱、藏起来。多线程动作协同完成互不冲突,从感知到一捆钱到捡起来仅由一个端完成。

在此我们可以把整个人看作一个端,不必把人体理解为大脑、眼睛、肢体、骨骼等独立的部分的缝合体。

而说回智能驾驶,凭借多传感器冗余+手写规则的技术虽然能做到很强,但也无异于将人拆分成很多个部分,一定程度上相当于人捡钱都要先蹲好、再弯腰、再伸手,多个流程之前存在信息损失。而端到端就不同了,办事只需要一个动机和一个解决方案,这也如同端到端的英文名称——「end to end」。

条条大路通罗马尼亚

端到端智驾的特点,就是能通过学习“人类成熟驾驶习惯”来获得进化。用车企的话术说,“我们会不断喂给系统视频让它学,通过大量积累,它就能非常拟人。”

那如果把“人类危险驾驶习惯”喂给系统,它是不是也能学会?那还用说,当然能学会。

640.gif

如果把大量“行驶遇到斑马线有行人”的视频喂给系统,系统就能轻易的学习到一条知识:“有的情况下”需要停车等待。

但是,“有的情况下”具体指什么,系统完全有可能理解错。比如系统可能会认为,见到斑马线就应该停车,并不是因为斑马线上有行人所以需要停车;另外,在斑马线前停车,还可能是因为遇到了红灯,系统就不一定能Get到。

AI很可能学到你不想让它学的,即便是喂给它大量“人类成熟驾驶习惯”,它仍然有可能学个牛马。扣回开篇所说的,如果不加以约束,系统完全有可能通过学习,做出主动选择碰撞对象的决策。

这也是为什么,同样一个端到端的大方向,不同车企玩出了百家争鸣的感觉,而没有车企去做完全类人的「One Model端到端」。

华为ADS.jpg

华为ADS 3.0端到端架构图

在华为ADS 3.0中,GOD大网能识别异形障碍物,能够深度感知道路结构和场景语义,对物理世界具有全面的理解能力;PDP预测决策规控与规划网络的加持使决策效率大幅提升,通过端到端模型能够处理极端复杂的路面环境,大幅提升ADS模型的类人驾驶能力。

其中,本能安全网络是非常重要的一环。根据官方描述,本能安全网络类似于人的皮肤触碰到火苗,会本能的退缩。

在端到端架构天马行空的决策中,ADS 3.0的本能安全网络将“掐”掉不能执行的部分。

D003.gif

华为ADS 3.0:自主通过闸机

D005.gif

华为ADS 3.0:无保护左转

前段时间,搭载华为ADS 3.0的享界S9实现了“车位到车位”智驾,系统能够自主完成从地库到公路再过闸机、过环岛、掉头、自动超车、无保护左转,上下车自己开,下车自己停等一系列高阶操作。

几年前的“HI版”车型其实已经做到了类似自动超车、无保护左转这样的高阶操作,而在端到端时代,华为ADS未来得泛化理解能力还将不断提升,拟人化也将不断提升。

image.jpg

小鹏汽车端到端大模型 示意图

小鹏汽车的端到端架构由神经网络XNet+规控大模型XPlanner+大语言模型XBrain组成,其中AI大语言模型XBrain架构类似大脑,善于泛化处理复杂及未知场景;规控大模型XPlanner像小脑,通过海量数据训练不断实现拟人进化;大语言模型XBrain能够深度理解各种令行禁止、快慢缓急的行为指令,进而做出拟人的决策。

尽管小鹏的端到端架构没有像华为ADS 3.0一样提出“本能安全网络”的概念,但实际上这种模块化的端到端架构一样起到约束作用,不会将决策完全交给AI。

image.jpg

理想汽车端到端架构 示意图

理想汽车提出了端到端模型+VLM视觉语言模型+世界模型的方案,此外理想汽车还提出了“快系统与慢系统”的概念。

在理想发布的端到端概念中:

1、端到端模型主要用于处理常规驾驶行为,传感器输入到行驶轨迹输出,只经过一个模型,信息传递、推理计算、模型迭代更高效,驾驶行为也更拟人;

2、VLM视觉语言模型具备强大的逻辑思考能力,能够理解导航地图、复杂路况和交通规则,以应对未知场景。同时,系统将在基于世界模型构建的场景中进行学习和测试。构建的测试场景,既符合人类世界的真实规律,也具备强大的泛化能力。

新架构还将具有「快系统慢系统

「快系统:善于处理简单的任务,类似人类的直觉,应对覆盖95%的常规场景。

慢系统:类似人类深入的理解与学习,形成复杂的逻辑和计算,用于解决复杂未知的5%场景。

快系统与慢系统配合,目的在于确保大部分场景下的高效率,和少数场景下的高上限。

微信图片_20240911111505.png

对于公众甚至是媒体来说,端到端都是一个很新的概念,但业内人士认为这个概念至少已经出现了5、6年以上的时间。

早期,端到端几乎没有实际上车的可能性,而随着大语言模型的引入,端到端的通用识别能力已经可以突破,不可能已经变成可能。在端到端架构中,大语言模型具有非常高的上限,智驾系统既可以越来越具备接近人脑的思考方式。

目前,我们还没有看到绝对纯粹的端到端智能驾驶架构,如上所列的案例中可见,目前车企会对端到端智驾进行必要的约束。但由于AI自我训练机制的介入,我们还是可以确认,以端到端为架构的智能驾驶有难以估量的前景。

犄角旮旯 副本.jpg

说一千道一万,智驾全面拥抱AI,还是为了突破最后1%甚至0.01%的极端场景,业内人士称之为「corner case」。

以前,智能电动车企谈黑盒色变,因为在手写规则时代,采购一套“不可解释”的黑盒是一套快速达到行业平均水平,但后续升级受限的方案。而兜兜转转一番之后,实际端到端智驾所追求的正是打造一枚黑盒,为了突破极端场景,盒子里的规则是否能解释已经不是重点,重点是只有让智驾更类人,极端场景才可能被攻破。

智能电动车企想跳过原始积累阶段,一步进入端到端也是伪命题。以特斯拉FSD为例,软件的每一次迭代并不会摒弃此前的积累。当前,V12以后版本的FSD在美国本土已经展现出很强的类人驾驶能力,而在高速等场景中V12系统存在降级为V11的情况,但显然随着系统不断迭代,FSD将逐步提升端到端的占比,逐步将规则代码取代。

尽管现在高喊端到端智驾的车企有一大票,但很显然不是搭上端到端,就能成事。一方面,已经有深厚积累的车企有更大的空间逐步转型,让AI取代手写代码;另一方面,谁更能适应马拉松,在健康运营的条件下持续吃透数据、打造数据闭环,谁才能真正把端到端的意义做出来。

邦点评

上一阶段,激光雷达几乎是高阶智能驾驶的唯一代言人,但咱也见过搭载4颗激光雷达的车型还没上市就折了。目前,视觉感知+AI的智能驾驶路线重回主流,采用激光雷达的方案也不再追求激光雷达的数量,最具代表性的就是华为ADS自从进化到2.0之后,激光雷达就由3颗变1颗了。

多模块化的端到端智能驾驶已经以AI为核心,而数据本地处理和云端计算的需求也来到的新高度。在手写规则时代,智驾数据多到算不过来,而在端到端智驾时代,AI能够大幅度简化数据学习的人工成本,但智驾确来到了自发追求向上、主动希望获取更多学习机会的阶段,因此智驾更加是一场马拉松,智驾的研发也将演化成更漫长、更学无止境的过程。

在端到端智驾的时代,肯定不是谁搭上端到端谁就上岸,而是谁能更好的吃透数据、学习得更深,谁才能在难度升级的智驾赛道中跑出差距。