地平线下一代“多模态大模型+端到端”架构Senna:开创智驾决策规划全新范式
概述
端到端自动驾驶在大规模驾驶数据上训练,展现出很强的决策规划能力,但是面对复杂罕见的驾驶场景,依然存在局限性,这是因为端到端模型缺乏常识知识和逻辑思维。而视觉语言多模态大模型(Large Vision-Language Models,LVLM),例如GPT-4O,已经展现出极强的视觉理解能力和分析能力,可以很好的与端到端模型互为补充,充当驾驶决策的“大脑”。基于这个思路,我们提出了一种连接视觉语言多模态大模型和端到端模型的智驾系统Senna,针对端到端模型鲁棒性差,泛化性弱问题,行业首创“大模型高维驾驶决策-端到端低维轨迹规划”的新驾驶范式,打造“大模型+端到端”的下一代架构,实现安全,高效,拟人的智能驾驶。经多个数据集上的大量实验证明,Senna具有业界最优的多模态+端到端规划性能,展现出强大的跨场景泛化性和可迁移能力。
Senna解决的研究问题
此前基于大模型的自动驾驶方案,往往将大模型直接作为端到端模型,即直接用大模型预测规划轨迹或者控制信号,但是大模型并不擅长预测精准的数值,因此这种方案并不一定是最优解。此前神经学的研究表明,人脑在做细致决策时,层次化的高维决策模块和低维执行模块组成的系统起到了关键的作用。例如,当想要左转的驾驶员看到红绿灯由红变绿,大脑中首先会思考,现在红绿灯变绿了,因此我可以加速启动通过路口。然后再通过“打转向灯”,“踩油门”等一系列动作完成通过路口这个目标。基于上述观察,Senna主要尝试探索和解决三个问题:
(1)如何有效地结合多模态大模型和端到端自动驾驶模型?
Senna采用解耦的行为决策-轨迹规划思路,多模态大模型在大规模驾驶数据上微调,以提升其对驾驶场景的理解能力,并采用自然语言输出高维决策指令,然后端到端模型基于大模型提供的决策指令,生成具体的规划轨迹。一方面,使用大模型预测语言化的决策指令,可以最大利用其在语言任务上预训练的知识和常识,生成合理的决策,并且避免预测精确数字效果欠佳的缺陷;另一方面,端到端模型更擅长精确的轨迹预测,将高维决策的任务解耦,可以降低端到端模型学习的难度,提升其轨迹规划的精确度。
(2)如何设计一个面向驾驶任务的多模态大模型?
驾驶依赖于准确的空间感知,目前常见的多模态大模型没有针对多图输入进行专门优化,此前针对驾驶任务的大模型或者仅支持前视输入,缺乏完整的空间感知,存在安全隐患;或者支持多图输入,但是并没有进行细致的设计,或针对其有效性进行验证。
为了解决这些问题,我们提出了Senna,Senna包含两个模块,一个驾驶多模态大模型 (Senna-VLM) 和一个端到端模型(Senna-E2E),相比于通用的多模态大模型,Senna-VLM针对驾驶任务做出如下设计:首先,针对驾驶的大模型需要支持多图从而可以输入环视和多帧的信息,这对于准确的驾驶场景理解和安全非常重要。最初,我们尝试简单基于LLaVA-1.5模型加入环视多图输入,但是效果并不符合预期。在LLaVA中,一张图像需要占用576个token,6张图则需要占用3456个token,这几乎要接近最大输入长度,导致图像信息占用的token数量过多。因此Senna-VLM对图像编码器输出的图像token做进一步特征压缩,并设计了针对环视多图的prompt,使得Senna可以区分不同视角的图像特征并建立空间理解能力。
(3)如何有效地训练面向驾驶任务的多模态大模型?
在有了适合驾驶任务的模型设计后,有效地训练LVLM是最后一步。这部分包括两方面的内容,数据和训练策略。在数据方面,此前工作提出了一些策略,但是很多并不是针对规划服务,例如检测和grouding。另外,很多数据依赖于人工标注,这限制了数据的大规模生产。在本文中,我们首次验证了不同类型的问答数据在驾驶规划中的重要性。具体来说,我们引入了一系列面向规划的问答数据,旨在增强Senna对驾驶场景中与规划相关的线索的理解,最终实现更准确的规划。这些问答数据包括驾驶场景描述、交通参与者的运动意图预测、交通信号检测、高维决策规划等。我们的数据策略可以完全通过自动化流程实现大规模生产。至于训练策略,大多数现有方法采用通用数据预训练,然后针对驾驶任务微调。然而,我们的实验结果表明,这可能不是最佳选择。我们为
Senna-VLM
提出了一种三阶段训练策略,包括混合数据预训练、驾驶通用微调和驾驶决策微调。实验结果表明,我们提出的三阶段训练策略可以实现最佳的规划性能。
Senna的关键创新
在模型层面,Senna提出层次化的规划策略,可以充分利用大模型的常识知识和逻辑推理能力,生成准确的决策指令,并通过端到端模型生成具体的轨迹。另外,Senna设计了针对环视和多图的策略,通过图像token压缩和精心设计的环视prompt,有效提高了多模态大模型对驾驶场景的理解。
在数据方面,我们设计了多种可以大规模自动标注的面向规划的驾驶问答数据,包括场景描述、交通参与者行为预测、交通信号识别以及自车决策等。这些问答数据对于Senna生成准确的决策起到了关键作用。
在训练层面,我们提出三阶段的大模型训练策略,不仅提升了Senna在驾驶场景的表现,且有效保留了其常识知识而不至于出现模式坍塌的问题。
Senna的实验及应用效果
基于多个数据集上的大量实验表明Senna 实现了state-of-the-art的规划性能。实验结果的亮点在于,通过使用在大规模数据集上预训练的权重并进行微调,Senna 实现了显著的性能提升,与没有预训练的模型相比,平均规划误差大幅降低了27.12% ,碰撞率降低了33.33%,这些结果验证了 Senna 提出的结构化的决策规划策略、模型结构设计和训练策略的有效性。Senna强大的跨场景泛化性和可迁移能力,展现出成为下一代通用智驾大模型的潜力。
未来探索方向
Senna初步探索并验证了基于语言化的决策将大模型和端到端模型结合的可行性。下一步,我们将利用更精细的语言决策,并基于决策信息以可控的方式实现个性化的轨迹规划,并在可解释性、闭环验证等方面进一步探索优化。相信Senna将会激发行业在该领域的进一步研究和突破。
参考文献:
[1] Xu Z, Zhang Y, Xie E, et al. Drivegpt4: Interpretable end-to-end autonomous driving via large language model[J]. IEEE Robotics and Automation Letters, 2024.
[2] Tian X, Gu J, Li B, et al. Drivevlm: The convergence of autonomous driving and large vision-language models[J]. arXiv preprint arXiv:2402.12289, 2024.
[3] Koechlin E, Ody C, Kouneiher F. The architecture of cognitive control in the human prefrontal cortex[J]. Science, 2003, 302(5648): 1181-1185.
[4] Liu H, Li C, Wu Q, et al. Visual instruction tuning[J]. Advances in neural information processing systems, 2024, 36.
[5] Caesar H, Bankiti V, Lang A H, et al. nuscenes: A multimodal dataset for autonomous driving[C]//CVPR. 2020: 11621-11631.
- |
- +1 赞 0
- 收藏
- 评论 7
本文由Victor转载自地平线HorizonRobotics公众号,原文标题为:下一代“多模态大模型+端到端”架构Senna:开创智驾决策规划全新范式,本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
相关推荐
地平线自动驾驶算法新突破,两篇科研论文入选学术顶会ECCV 2024
近日,地平线两篇论文入选国际计算机视觉顶会ECCV 2024,自动驾驶算法技术再有新突破。
地平线算法工具链新进展! GANet在征程®5上实现高效部署
地平线征程5是专为高阶智能驾驶打造的智能计算方案,搭载地平线第三代架构BPU--贝叶斯(Bayes),算力可达128TOPS,是率先实现前装量产的国产百TOPS级智能计算方案。基于征程5开发的高等级自动驾驶方案可实现ADAS功能、高速导航智能驾驶、城区导航智能驾驶和智慧泊车的全场景覆盖。
智驾征程|MG ES5全球首秀!上汽MG名爵与地平线首个合作车型正式落地
MG ES5搭载了基于地平线征程®3的Horizon Mono™️高级辅助驾驶方案,可以提供多项辅助驾驶及主动安全功能,包括智能巡航辅助、车道保持辅助、智能超速报警等,并覆盖大曲率弯道和匝道通行、车道变化分流通行等更多场景,以更聪明的方案为用户带来更好用的智驾体验。
【经验】地平线ISP工具Control tool的使用方法介绍
Control tool是isp-tuning时tuning ISP参数的图形界面工具,对于刚接触地平线的开发者来说,会比较陌生,下面详细介绍Control tool的使用方法。
地平线旭日® X5 介绍
地平线公司作为智能驾驶计算方案提供商,专注于深度神经网络芯片研发。其产品征程系列和旭日系列芯片广泛应用于自动驾驶、智能驾驶辅助系统等领域。公司拥有150+车型前装定点,1000万+出货量,200+生态合作伙伴,1200+专利,1500+研发人员。地平线旭日芯片持续迭代,提供高效进化的智能平台,支持多种算法加速需求。旭日5芯片集成了CPU、BPU、GPU、DSP四合一异构加速,满足不同算法加速需求。
地平线 - AI智能芯片,高性能智能计算芯片,AI 边缘计算,家庭陪伴机器人,AIOT,割草机,艾奥特,视频会议,陪伴机器人,机器人设计,扫地机
【经验】地平线DDR压测工具stressapptest的使用方法
stressapptest是开源工具,可以进行内存、CPU和存储的压力测试。本文主要介绍地平线DDR压测工具stressapptest的使用方法。
【经验】地平线X3M SDB开发板烧录ubuntu镜像实操和注意事项
地平线X3M SDB开发板,地平线论坛已经支持yocto linux和ubuntu两种SDK包,本文实操烧录ubuntu镜像以及说明注意事项。
世界模型:地平线眼中的「认知大脑」
在8月28日举办的地平线高阶智驾技术开放日上,地平线创始人兼CEO余凯博士就当下火热的端到端,智能驾驶未来发展趋势、地平线软硬结合的王炸产品Horion SuperDrive™(HSD™),与参会嘉宾进行了真诚的分享。其中,余凯博士提到,“端到端是每家公司都能掌握的,魔鬼在细节中。” 本篇文章即从端到端讲起 ,并为大家剖析何为地平线的“驾驶世界观”。
迈向端到端自动驾驶:端到端矢量地图在线构建方法和基于矢量化表征的端到端自动驾驶算法VAD
随着科技的不断进步,自动驾驶汽车行业正迎来一项具有潜力的革命性技术——端到端自动驾驶。端到端自动驾驶是一种全新的自动驾驶技术,它将感知、决策和控制集成到一个单一的深度学习神经网络中,无需复杂的中间模块。这意味着汽车可以直接从传感器数据中学习并作出决策,以安全而高效地导航城市道路。端到端方案基于数据驱动的方式优化整个系统,打通了各个模块的壁垒,并减少了繁琐的后处理,具有很高的研究价值。
地平线与大众汽车集团旗下软件公司CARIAD合资公司正式成立,强大智能驾驶计算方案驱动出行变革
行业领先的智能驾驶计算方案提供商地平线与大众汽车集团旗下软件公司CARIAD正式宣布合资公司酷睿程(CARIZON)成立。新合资公司将整合地平线强大的软硬结合技术能力以及CARIAD在智能车身和软件系统整合方面的专业经验,开发行业领先的、高度优化的全栈式高级驾驶辅助系统和自动驾驶解决方案。酷睿程将基于地平线征程家族计算方案开展研发工作,落地智驾方案将搭载于大众汽车集团在中国市场的纯电动车型。
一组数字读懂地平线高阶智驾技术开放日!
地平线在北京举办的高阶智驾技术开放日上,展示了其Horizon SuperDrive™(HSD™)系统的最新进展。该系统旨在2025年实现高阶智驾的规模化发展,提供全场景智驾模式和安全保障。地平线的技术在多个算法挑战赛中获奖,并计划通过World Model和交互博弈模型实现性能和体验的优化。征程6芯片将支持这一全场景智驾解决方案,以实现高效、拟人化的驾驶体验。
【经验】地平线Soc X3M适配新的sensor时MIPI CSI、VIO配置注意事项
地平线X3M适配新的sensor,除了要实现sensor寄存器的初始化,以及代码库实现,还需要做X3M端的MIPI CSI配置,以及VIO的配置,本文将介绍地平线Soc X3M的MIPI CSI、VIO配置注意事项。
【经验】地平线X3M SoC芯片烧录efuse的方法
地平线X3M SoC的efuse的主要目的是自动识别不同厂商的DDR以及DDR类型。现在的DDR频率默认是3200,有些DDR的最高频率为2666,不烧写efuse,频率变为3200会影响启动。
ECCV 2024|OSP:全新视角下的自动驾驶场景建模算法
本文首先定义了 PoIs(Points of Interest)这一概念,这是一组用于表征三维场景的稀疏点,也是本文方法的核心。本方法可用于增强 BEV 表征的方法,为三维占据网格预测提供了一种全新的思路,在性能和灵活性上都有优越性。
电子商城
现货市场
登录 | 立即注册
提交评论