【技术】地平线研发全新的利用时空信息进行编码解码的层级网络,为自动驾驶提供更丰富的运动预测
近年来自动驾驶场景中的预测任务逐渐兴起一种新形式,即预测未来基于鸟瞰图的空间占有栅格(occupancy)和光流(flow)。此类预测任务与传统预测轨迹的任务相比在很多场景下会提供更多的信息,作为自动驾驶上下游的一环,有着更广泛的应用场景。在今年的Waymo Open Dataset Challenge 2022上,Waymo推出了此任务的全新挑战赛。地平线在这个项目上研发出了一种全新的利用时空信息进行编码解码的层级网络,通过多重编码网络,多尺度时空融合,预测隐变量以及联合栅格占有和光流的损失函数等创新性技术,将这一任务的精度推上新的高度。
背景
预测任务是自动驾驶场景中至关重要的一项任务,其目的是通过对运动物体的历史轨迹和运动状态的观测,结合道路信息,推测其未来的行为,为下游的规划控制提供更丰富的预测信息。其表征形式通常为多条未来可能的轨迹。
近年来,越来越多的研究表明,基于鸟瞰图的空间占有栅格和光流的表征形式相比多条轨迹预测有更强的表征能力。相比于轨迹的形式,占有栅格有更丰富的空间分布信息,能更好的表征动态物体的位置、形状、身份的不确定性;其联合概率分布的形式在一定程度上可以处理物体之间的交互的能力;同时,所有的动态物体可以同时并行处理,极大地提升了处理的效率;另外,此种方法还具有推测被遮挡物体的能力,能有效预防诸如“鬼探头”等的情况;最后,其鸟瞰图下的表征形式能更好地与上下游相结合。
基于这个趋势,Waymo于今年推出了全新的自动驾驶挑战赛项目,即Occupancy and Flow Prediction Challenge。此挑战赛给定过去一秒中动态物体(车辆,自行车和行人)的运动轨迹,要求对未来八秒的可观测物体的栅格占有、遮挡物体的栅格占有以及对应光流做预测。本方法结合了CNN、transformer、三维稀疏卷积等优势,利用隐变量丰富了未来的信息,创新性地引入了层级时序解码机制,在此次Waymo挑战赛中取得了极佳的成绩。
方法
输入
模型的输入包含了动态信息和静态信息。其中动态信息包含了历史帧和当前帧的动态物体(车辆,自行车和行人)的空间占有栅格信息以及对应物体的属性信息(比如物体检测框的长宽高和速度等信息),静态信息包含了整个场景的路面相关信息(比如道路中线,道路边缘,路面其他特征等)。
所有信息都被处理成二维鸟瞰图并进一步进行时间尺度上的聚合。地平线同时使用了2D编码器和3D编码器,其中针对2D编码器,动态信息输入会直接在特征维上进行时间拼接;而针对3D编码器,时间会作为额外的维度(静态信息在每一帧上进行复制),并且输入会作稀疏化处理。
编码器
编码器一共分为三种,分别是基本编码器,注意力编码器以及时空编码器
1、基本编码器:作为整个框架的基本编码器,地平线选择使用了RegNet[1]模型。RegNet是一个设计完备且效率很高的模型。编码器经过层层降采样编码,生成了5个维度上的特征,对应的尺度分别是输入的1/2,1/4,1/8,1/16和1/32。
2、注意力编码器:近年来,在检测和分割任务中,SwinTransformer及其升级版SwinTransformerV2[2]取得了很好的结果。基于其独特的局部窗口注意力机制,不仅能很好地编码动态物体和路面间的交互,还大量地减少了网络计算量,因此地平线使用了SwinTransformerV2来作为整个网络的注意力编码器。为了可以和基本编码器输出特征的尺度相对应,地平线将每个patch的尺寸由4改成了2,由此注意力编码器可以输出和基本编码器尺度相同的5个特征。
3、时空编码器:为了更好地进行帧间信息交互提取,地平线设计了一个3D时空编码器来额外捕捉时间尺度上的信息。因为地平线的输入信息在鸟瞰图上有着很高的稀疏度,地平线选择使用3D稀疏卷积和子流形稀疏卷积[3]来搭建网络。这样既可以大量地加速3D卷积的计算也可以有效防止稀疏特征在早期过快地膨胀(dilation)。地平线对应其他编码器,设计了5阶段网络,其中时间维在2和4阶段进行下采样。针对网络的每个输出特征,地平线将时间维和特征维进行合并来使特征降维。
聚合器
聚合器由两部分组成,在空间尺度上,地平线利用BiFPN做多尺度的聚合;在时间尺度上,地平线利用隐变量模型来丰富未来的信息。类比于条件变分器,地平线在每一个尺度,每一个空间位置都对未来的概率进行建模。在训练阶段,地平线基于现在时刻的概率分布做采样。推理阶段,直接采用概率分布均值。为了保证预测分布和已观测分布的一致性,地平线采用Kullback-Leibler divergence损失函数作为监督信号。
解码器
解码器采用多层级多尺度的特征金字塔形式,基本的组成单元为3D卷积Bottleneck结构。3D bottleneck中采用了膨胀卷积和分组卷积,可以极大地扩大感受野并节省计算量。同时,为了将编码后的2D特征做时序展开,地平线引入了3D转置卷积Bottleneck。这些堆叠的bottleneck通过上采样进行多尺度的链接,有效地融合了多尺度的信息。同时,为了节省计算量,在输出尺度上用ConvLSTM做时序上的修正。
损失函数
1、对于可观测占有栅格和被遮挡占有栅格的预测,地平线采用Focal Loss作为其监督信号,两者采用相同的权重进行加权。
2、对于光流的预测,采用Smooth L1损失函数。为了将光流和占有率的预测解耦,地平线利用占有率的真值做加权。
3、为了保证栅格占有率和光流预测的一致性,采用跟踪损失函数进行进一步监督。利用光流的预测,地平线可以对前一帧的栅格占有率进行空间变形来得到当前帧的基于光流的空间占有预测。
最后将基于光流的空间占有预测和当前帧栅格占有预测相乘,来得到当前帧的空间占有-光流联合预测,并用此联合预测和当前帧的栅格占有真值来计算损失函数traced loss。地平线同时采用Focal loss和交叉熵损失函数进行监督。
4、为保证聚合器中隐变量中现在和未来的一致性,地平线采用Kullback-Leibler divergence损失函数作为监督信号[5]来监督预测的概率分布函数参数。
5、最后,所有的损失函数进行加权和作为最后的损失函数。
实验结果
消融实验
本表展示了在Waymo数据集上的消融实验结果,灰色的一列为评测的主指标。可以看出,loss的改进,如focal loss和traced loss分别带来了2.01%和0.46%的提升。同时,更丰富的栅格化输入带来了1.23%的提升。同时,结构化的改进,包括隐变量,时空解码器,以及解码器的改进带来了约1.21%的提升。最后TTA带来了约0.40%的提升。值得一提的是,所有的实验都是在十分之一的数据集上做的验证。这些结果充分的说明了地平线方法的有效性。
测试集表现
下表展示了地平线方法在waymo测试集上的排名,灰色的一列代表评测的主指标,可以看出,我们的结果在主指标上大幅领先,充分说明地平线方法的优越性。
结果可视化
下面展示地平线的方法在特定场景下的对接下来8秒占有栅格(左)和光流(右)的可视化结果。下面列出了直行,红绿灯路口左转右转掉头,无保护左转,4-way-stop,无保护左转,自主避障,停车入库,被遮挡物体的猜测等场景。可以看出,地平线的方法能有效地处理复杂场景,能实现多动态物体的交互,交通信息和规则的理解,自主避障,对被遮挡物体的推测等功能。
普通路面:主要展示对不同车速/加速减速情况的车流预测,可以看出HOPE能对未来轨迹的不确定性进行很好的建模。
交叉路口:主要展示对不同转弯,停车等待的车流预测。
掉头场景:复杂路口。
不确定场景:直行、右转两条车道都有可能驶入。
右转:右转车辆对直行车辆进行了避让。
左转:根据路口红绿灯、交通规则等综合信息对路权进行判断。
无保护左转:左转车辆对直行车辆进行了避让。
2 way stop:可以看见车辆交互,处理先来后到顺序。
遮挡绕行:可以看见车辆对前方静止车辆进行了绕行。
停车入库:小样本、低速场景预测,可以看见低速场景下轨迹的不确定性更高,模型可以有多种可能的轨迹预测。
遮挡物体的猜测:绿色的为被遮挡物体。
- |
- +1 赞 0
- 收藏
- 评论 0
本文由赵浩亮转载自地平线,原文标题为:开发者说 | HOPE:基于自动驾驶场景Occupancy和Flow的运动预测,本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
相关推荐
【技术】地平线-华中科技大学计算机视觉联合实验室发表:基于径向对称性和分治策略的点云方位角归一化
点云感知算法是安全鲁棒的自动驾驶系统中尤为重要的一环。在CVPR 2022上,地平线-华中科技大学计算机视觉联合实验室发表了研究成果Azimuth Normalization——以点云特有的径向对称性作为先验,对数据归一化,降低从点云中获取信息的难度。
新技术 发布时间 : 2022-06-04
地平线自动驾驶算法新突破,两篇科研论文入选学术顶会ECCV 2024
近日,地平线两篇论文入选国际计算机视觉顶会ECCV 2024,自动驾驶算法技术再有新突破。
原厂动态 发布时间 : 2024-07-27
地平线(Horizon Robotics)新一代AIoT智能芯片选型表
描述- 旭日®3 是地平线针对 AIoT 场景,推出的新一代低功耗、高性能的智能芯片;集成了地平线最先进的伯努利2.0 架构引擎( BPU® ),可提供 5TOPS 的算力。新的 BPU 架构极大提升了对先进 CNN 网络架构的支持效果,并极大降低了运算对 DDR 带宽的占用率。辅以地平线天工开物® 软件开发平台,大幅简化算法开发与部署过程,降低产品的落地成本。
型号- X3M,X3E
地平线陈黎明:用户价值驱动,软硬结合技术推动智驾向高而行
智驾科技企业地平线总裁陈黎明博士发表了以《用户价值驱动,软硬结合技术推动智驾向高而行》为主题的论坛演讲,指出“2025年将成为高阶智驾的决赛点,五年后,高阶自动驾驶会开始成为标配;十年后,手动驾驶将成为新闻”。
原厂动态 发布时间 : 2024-11-12
【经验】地平线ISP工具Control tool的使用方法介绍
Control tool是isp-tuning时tuning ISP参数的图形界面工具,对于刚接触地平线的开发者来说,会比较陌生,下面详细介绍Control tool的使用方法。
设计经验 发布时间 : 2022-09-10
地平线与大众汽车集团旗下软件公司CARIAD合资公司正式成立,强大智能驾驶计算方案驱动出行变革
行业领先的智能驾驶计算方案提供商地平线与大众汽车集团旗下软件公司CARIAD正式宣布合资公司酷睿程(CARIZON)成立。新合资公司将整合地平线强大的软硬结合技术能力以及CARIAD在智能车身和软件系统整合方面的专业经验,开发行业领先的、高度优化的全栈式高级驾驶辅助系统和自动驾驶解决方案。酷睿程将基于地平线征程家族计算方案开展研发工作,落地智驾方案将搭载于大众汽车集团在中国市场的纯电动车型。
原厂动态 发布时间 : 2023-12-14
智驾征程|MG ES5全球首秀!上汽MG名爵与地平线首个合作车型正式落地
MG ES5搭载了基于地平线征程®3的Horizon Mono™️高级辅助驾驶方案,可以提供多项辅助驾驶及主动安全功能,包括智能巡航辅助、车道保持辅助、智能超速报警等,并覆盖大曲率弯道和匝道通行、车道变化分流通行等更多场景,以更聪明的方案为用户带来更好用的智驾体验。
原厂动态 发布时间 : 2024-11-11
地平线算法工具链新进展! GANet在征程®5上实现高效部署
地平线征程5是专为高阶智能驾驶打造的智能计算方案,搭载地平线第三代架构BPU--贝叶斯(Bayes),算力可达128TOPS,是率先实现前装量产的国产百TOPS级智能计算方案。基于征程5开发的高等级自动驾驶方案可实现ADAS功能、高速导航智能驾驶、城区导航智能驾驶和智慧泊车的全场景覆盖。
原厂动态 发布时间 : 2024-02-23
【经验】地平线X3M SDB开发板烧录ubuntu镜像实操和注意事项
地平线X3M SDB开发板,地平线论坛已经支持yocto linux和ubuntu两种SDK包,本文实操烧录ubuntu镜像以及说明注意事项。
设计经验 发布时间 : 2022-06-24
详解PTP服务器的定义、功能以及在自动驾驶中的应用
随着科技的不断发展,自动驾驶技术已经成为了汽车行业的一个热点。而在这个过程中,PTP服务器作为一种关键的基础设施,其在自动驾驶中的普及程度也引起了广泛的关注。本文赛思将从PTP服务器的定义、功能以及在自动驾驶中的应用等方面进行详细的阐述。
技术探讨 发布时间 : 2024-10-29
迈向端到端自动驾驶:端到端矢量地图在线构建方法和基于矢量化表征的端到端自动驾驶算法VAD
随着科技的不断进步,自动驾驶汽车行业正迎来一项具有潜力的革命性技术——端到端自动驾驶。端到端自动驾驶是一种全新的自动驾驶技术,它将感知、决策和控制集成到一个单一的深度学习神经网络中,无需复杂的中间模块。这意味着汽车可以直接从传感器数据中学习并作出决策,以安全而高效地导航城市道路。端到端方案基于数据驱动的方式优化整个系统,打通了各个模块的壁垒,并减少了繁琐的后处理,具有很高的研究价值。
原厂动态 发布时间 : 2023-10-27
基于双核贝叶斯架构的地平线征程®5车规级AI芯片,专为高等级自动驾驶而生
地平线可提供基于征程5,集全场景自动驾驶、多模人机交互和车内外联动于一体的 Horizon SuperDrive® 全场景整车智能解决方案,能够帮助客户和合作伙伴打造更具智能化、人性化的人车共驾新体验。
原厂动态 发布时间 : 2022-01-27
世界模型:地平线眼中的「认知大脑」
在8月28日举办的地平线高阶智驾技术开放日上,地平线创始人兼CEO余凯博士就当下火热的端到端,智能驾驶未来发展趋势、地平线软硬结合的王炸产品Horion SuperDrive™(HSD™),与参会嘉宾进行了真诚的分享。其中,余凯博士提到,“端到端是每家公司都能掌握的,魔鬼在细节中。” 本篇文章即从端到端讲起 ,并为大家剖析何为地平线的“驾驶世界观”。
技术探讨 发布时间 : 2024-10-23
地平线发布具有4核ARMA53处理能力的X3派AI开发平台,支持H.264/H.265编解码和5Tops端侧推理|视频
地平线旭日®️X3派是一款面向生态开发者的嵌入式AI开发板,接口兼容树莓派,具有5Tops端侧推理与4核ARMA53处理能力。可同时多路CameraSensor的输入并支持H.264/H.265编解码。
新产品 发布时间 : 2022-06-16
【经验】地平线X3M SoC芯片烧录efuse的方法
地平线X3M SoC的efuse的主要目的是自动识别不同厂商的DDR以及DDR类型。现在的DDR频率默认是3200,有些DDR的最高频率为2666,不烧写efuse,频率变为3200会影响启动。
设计经验 发布时间 : 2023-03-03
电子商城
现货市场
登录 | 立即注册
提交评论