毫末智行艾锐谈自动驾驶大模型：全新范式是「生存」必选项

来源：机器之心 | 时间：2023-08-07 14:15:23

作者 / 曹锦今年3月，OpenAI发布了多模态预训练大模型GPT-4，其带来的飞跃式表现在AI行业内外掀起了轩然大波。在近一个月后，毫末智行（以下简称「毫末」）趁势推出了DriveGPT雪湖·海若，由于其概念定义、技术难度，应用挑战等问题，此次发布引发了许多讨论。

对此，毫末智行技术副总裁艾锐直言：「相不相信都没关系，关键要看持续的效果。」

针对大模型的热潮和DriveGPT的意义，「首席智行官」于近日对艾锐进行了一场对话，对其中问题进行释疑和解析。

DriveGPT并非临时起意

(资料图片)

早在ChatGPT大火之前，毫末就一直在建设认知大模型。也就是说，毫末已经认识到当时技术路线的短板，并笃定自动驾驶需要一套全新的技术范式。

「面对一些认知层面的难题，我们先尝试运用了一些简单的Transformer模型来求解决策问题，但效果未达预期。」艾锐说道。

例如，毫末曾利用标准的监督学习方式，直接拟合人的驾驶轨迹进行训练。但后来发现，该方式虽然也产生了一些成果，但可行的场景受限，长久来看很难得到大范围扩展，天花板较低。

「而当ChatGPT出现后，我们从底层技术的角度仔细研究了它对自然语言问题的解法，然后发现其技术架构，实际上和自动驾驶认知要解决的问题非常像，于是便决定采用这条路径。」

作为一家每季度都要举办AI DAY的公司来说，毫末智行可以说是迭代速度内卷的代表之一。从「雪湖」到「五个大模型」再到DriveGPT，毫末的每次AI DAY几乎都不是「凑数」的，而且一直有较大的升级。艾锐称，这是因为，在自动驾驶进入洗牌期时，「不提前做起来，可能就会完蛋。」

「你跟不上（新的思路），不代表别人跟不上，一旦有人能跟上，整个故事就不一样了。」艾锐认为，不能把宝押在「假设所有人都做不出来」。虽然他不敢说DriveGPT是最终解，但显然不能干等着别人验证成功。

「如果不提前做足准备，一心想等别人的成功案例，对不起，那你两年之后未必还能活着。」

自动驾驶与「生成式预训练」

虽然如今大模型来势汹涌，但究竟如何定义大模型，国际上仍无定论。而对于艾锐来说，大模型的核心能力，就是要拥有足够高的「数据规模-基础能力」转换效率，这也是其战略意义。「目前有些专家也认为，其实包括ChatGPT在内的大模型，距离通用人工智能还很远。但是从毫末的角度来说，我们追求的就是能实现质变的方法，并且要匹配战略优势，这是我们新路线最关键的一点。」

艾锐介绍称，DriveGPT是一种标准的生成式预训练操作方式，与此前毫末的五个大模型相比，是两种完全不同的路径。它不仅能将五个大模型的功能融合在一起，还使训练效率得到跃升。

据了解，DriveGPT采用decoder only的transformer结构、通过生成式（GPT）进行预训练，首先使用海量老司机的驾驶行为进行预训练，再引入司机接管数据和人工标注数据进行强化学习，筛选最佳驾驶决策。

从功能上看，这套方法能够根据10秒内获得的图片，预测生成未来2-3秒后的车辆感知结果，例如周边车辆的变道、行人的下一步动作等等。在生成这些结果的同时，也能够提供驾驶决策。

此前毫末数据智能科学家贺翔提过：「在开车时，周围的环境无时无刻不在变化。当人在开车时，不是基于过去的情况来做驾驶决策的，而是要基于以前的经验，来实时预测下一秒钟可能出现的情况，这种预判就叫做生成。」

同时，DriveGPT也需要以海量的数据进行预训练，这相当于有数万个司机，在用他们的驾驶行为来训练机器如何生成驾驶策略。

对于艾锐来说，数据最重要的标签是「分布」——「不是说总量多就行，最关键的是什么你都得有。」

在这一点上，他认为，AI在很多领域上的逻辑实际上是一致的。比如有人为了「净化」数据，曾将语料库中一些价值取向不好的文字和语料都删掉了，结果训练出来的语言模型整体效果反而下降了「这对自动驾驶也是一样，如果数据分布不全，那系统对世界的认识就是有缺陷的。」

「大模型上车」

需要整个行业发展成熟

虽然毫末在新的技术范式上要争分夺秒地进行验证，但有些理想化的长远目标，却还需要观望——例如，大模型上车。

这既不是短期内可以规划的目标，也不是一家公司能够推进的事情。「现在，各种大模型，都不太可能直接上车。」艾锐直言，现在业界也有人在尝试大模型上车，但差得还比较远。

这其中最大的阻碍，就是算力需求——大模型往往需要上千块GPU进行训练，推理成本也非常高，数十亿甚至上千亿参数在车端是不可能实现的。

毫末曾经提出，从训练大模型的角度，传统的数据存在90%以上简易、重复的场景数据，从辅助驾驶的应用角度来看，后期或许可以减少这部分数据，而采集更多的高价值数据，以此降低训练成本。

但即便如此，也仅仅是节省了云端成本，还是没办法上车。大模型上车首先需要在保持模型效果的前提下大幅度降低参数规模，同时也需要在芯片设计上做大胆创新，提升芯片运行大模型的计算效率、并降低芯片成本。

「现在车上的模型容量，与大模型容量相差至少四个数量级，所以必须要缩小一千倍，才有可能直接上车。」艾锐说道。

虽然毫末也被传出在与一些芯片公司在合作，但目的并非是大模型上车，而是提升自身自动驾驶产品的性价比。「现在大部分的芯片对Transformer的小模型支持得都不够好，就更别说支持大模型了。」艾锐认为现在谈大模型上车为时尚早。

目前，毫末的做法是，用一个大模型去训练真正上车的小模型。

「大模型相当于可以了解任何事情，如果再用小模型去拟合它，就像是老师带着一个学生，这会比直接从原始数据中去训练更简单，因为它模型的很多参数可以被直接借鉴。」艾锐介绍道。

同时他也认为，类似矿山，园区等低速领域的自动驾驶，对实时性要求较低，即便大模型不上车，也可以从云端直接控制这些车辆，这会产生巨大的变化。目前，毫末针对其物流配送小车，就在做类似的研究。

总体看来，大模型上车的解法和时间仍是未知，艾锐预测或许在3-5年后可以实现，但这需要整个行业的发展成熟，而不是由某一家企业单打独斗。

「我认为现在最重要的，是把大模型搞好。因为它本身还未达到我们预期的状态，更没法想『上车』的问题。目前还有很多人在研究大模型的工程优化，大家可以分头行事。」艾锐认为，大模型上车虽然很难，但一旦做成了收益极高，而高收益的事情就总会有人尝试。

城市NOH与重感知技术

关于已开始在北京、上海，保定三地运行的城市NOH，艾锐提供了两条思路，首先，毫末想给用户更大的可用范围，而非局部路线；其次，在重感知路线中，将会只使用SD地图——「预计我们内部在今年年底就会使用SD地图，但要推送得看测试情况。」

而毫末的重感知技术，同样是利用大模型来推进。对此，艾锐还是做了个拟人的比喻：「如果你只有一个导航地图，那就意味着你需要理解眼前的世界。因此，模型也需要像人一样，它需要理解中国的复杂道路。」

他表示，既然之前通过地图已经得到了拓扑结构，现在就需要去总结知识。「反向来说，就像你自己修了那些路一样，你得知道路是怎么修的，为什么修成那样，才能仅凭传感器数据就能推测出来后面道路的走向，这仅仅依靠小模型是做不好的。」

如今，毫末在DriveGPT上付出了极大成本，但其产品面对的主要市场还是20万元左右的中低端车型。对此，艾锐解释称，在顾及商业化考虑时，既要盯着眼下，也要兼顾未来。确实在简单场景中，不使用DriveGPT也可以保证效果。但是竞争的路很远，毫末的打法是，宁可先付出一些技术成本，但要保证方法可以扩展，走到最后的。

「我们每次在AI Day上都会放出最新的进展效果，有没有用，大家届时就能看到。」他说道。

关于首席智行官「首席智行官」为机器之心推出的智慧出行垂直媒体，我们时刻关注业内动态及权威专家最新观点，不定期深度访谈业界代表人物，内容涉及自动驾驶、新能源、芯片、软件、汽车制造和智能交通等方向的前沿研究与技术应用，透过权威思路以洞察产品、公司和行业，帮助汽车领域专业从业者和相关用户了解技术发展与产业趋势。

关键词：