世界模型:地平线眼中的「认知大脑」
智能驾驶的发展速度之快,五年河东,五年河西。面对即将到来的2025高阶智驾决赛点,大家都在期待一个捅破天的智驾产品进化而生。在8月28日举办的地平线高阶智驾技术开放日上,地平线创始人兼CEO余凯博士就当下火热的端到端,智能驾驶未来发展趋势、地平线软硬结合的王炸产品Horion SuperDrive™(HSD™),与参会嘉宾进行了真诚的分享。其中,余凯博士提到,“端到端是每家公司都能掌握的,魔鬼在细节中。” 本篇文章即从端到端讲起 ,并为大家剖析何为地平线的“驾驶世界观”。
如何让智能驾驶像人类一样开车?属于行业的灵魂之问。
现在,似乎有了一个非常接近的答案——端到端。自去年以来,端到端模型爆火,行业玩家不约而同开始跟进。与此同时,人们发现大量智驾架构上开始出现一个名为“World Model”的模块,与端到端并驾齐驱,成为不可或缺的智驾版图。
世界模型对智能驾驶到底意味着什么?
表面上看,世界模型通过预测未来的范式对数字世界和物理世界进行融合理解,打破了从感知到认知之间的隔阂,有望进一步解决端到端面对样本库以外数据带来的预测失准问题(out-of-distribution),提升智能驾驶的泛化性和安全性。对于地平线,世界模型则是驾驶世界观的重要组成,可以让智驾主体像「Intelligent Driver」(老司机)一样,基于对动静态目标物的感知和推理能力,实现对各类场景的理解和认知。这一切都在为博弈做前提准备,也是通向智能驾驶的重要拼图。
世界模型 端到端的“外挂”
“World Models”(世界模型)这个词,最早出现在机器学习领域。2018年,机器学习顶会NeurIPS收录了一篇《Recurrent World Models Facilitate Policy Evolution》论文,以认知科学中人脑mental model来类比世界模型,认为mental model参与了人类的认知、推理、决策过程,其中最核心的能力在于反事实推理(Counterfactual reasoning),这是一种人类天然具备,而当时机器还做得很差的能力。
举例来说,哪怕是几个月大的婴儿,看见一个苹果掉落到地上,就几乎了解到重力的本质,之后无论是玩具、花瓶或是书本掉落,都能预测出大概的轨迹,进而做出手接或躲避的动作。即便对于记忆中没有见过的信息,也能推理出抽象认知并进行预测——该定义成为世界模型的雏形,当时很多论文都认为,世界模型一旦产生突破,可以大幅提升机器的决策能力。
今天,世界模型比较普遍的定义是,整合多种语义信息(如视觉、听觉、语言等),通过机器学习、深度学习和其他数学模型来理解和预测现实世界中的现象、行为和因果关系。
世界模型为何突然成为行业追逐的热点?
起因在于智能驾驶正在面临着技术与体验的分岔口,传统的模块化路线降低了开发难度,在智驾“按部就班”上路的过程中发挥了巨大作用,但代码量巨大、泛化性较差、信息传递减损、系统集成困难等缺点也越来越突出,同时驾驶动作机械感很强,与像人一样开车的目标背道而驰,而端到端路线有望解决这些痛点,因此成为大家重点发力的方向。
但端到端也不是万能的,一方面,端到端自身“黑盒”特性决定了,无法简单通过明确的、可解释的规则约束系统的安全边界,带来安全性挑战;另一方面,端到端无法复现复杂的、偶发的corner case,考验可解释性和泛用性能力,把上限提高的同时拉低了下限,即所谓的“跷跷板效应”。此时,世界模型的作用开始显现:一是通过生成式大模型生成带有预测性质的视频数据,实现corner case多样化训练;二是采用强化学习的方法认识复杂驾驶环境,从视频输出驾驶决策。
要博弈,先认知
在地平线的理解里,世界模型还具有更高维度的意义。长期以来,地平线的目标在于探索不断拟人、类人的高阶智驾解决方案,打造一个真正的老司机。问题在于我们说老司机的时候,具体讨论的是什么?是对车况路况的熟悉,是对其他车辆一定程度上的预测,还是面对突发情况刻进肌肉记忆的操作?
我们先想到的是老司机的反面——新手司机在没有经验的情况下,只能依赖眼见为实,看到什么就操作什么,还没有学会使用直觉来走捷径;同样,单纯基于感知的智驾方案,通常情况下反应准确、及时、安全,但对于没有在训练数据中出现过的物体、环境和策略,它就显得不够聪明。
老司机的mental model使得他能够在理解常识的前提下,具备和驾驶环境交互博弈的能力,这里举一个比较常见的实例,比如前些日子,北京受台风水汽影响,频繁暴雨,地平线高阶城区智驾系统SuperDrive挑战了北京闹市区雨天晚高峰,暴雨天气会影响汽车的精准感知,但HSD™依然展现出了几大能力:
在汇流路段能预测旁车行驶意图,主动博弈积极变道快速汇入目标车道;
在路口右转的场景下,对前方行人通过速度展现了一定的预判能力;
面对经典鬼探头加塞,判断左侧没有车辆,进行小幅度绕行避让;
面对人车混行,可以优雅礼让、丝滑绕行;
无车道线道路维修区域通行;
从中可见司机交互博弈能力带来的差异:对未来几秒交通环境的认识,比如隔壁车辆会不会突然变道、遮挡或不可见环境下弱势道路使用者的轨迹等,新手司机通常要看清楚才能做出反应,这往往伴随着急停、大幅度躲避、长时间等待让行等动作,驾驶体验自然较差,而老司机能认识并预测,通过感知-认知-博弈-决策-行动的循环,选择最有利的驾驶逻辑,保障安全性和驾驶体验。
类比到智驾上,单纯基于CNN(卷积神经网络)的学习方式,主要基于规则堆砌,场景有细微的变化就会出错,只能像打地鼠一样不断去手写规则覆盖,即存在能力无法泛化、没有理解力等问题。对此地平线提出“交互式博弈”,核心在于通过生成式规控GPM、安全性规控学习SEditor、混合强化学习方法PEX,以数据驱动学习框架的方式兼具模仿学习的效率及强化学习的闭环效果,相比模仿学习碰撞率降低了50%,相比强化学习舒适度提升了20%。但要进一步实现高阶的智能驾驶,需要车同时具备“最快的思考”和“提前的理解”,机器要认识驾驶环境的现象、行为和因果关系,而非对视频输入的视觉信息进行“回合制游戏”式的处理,才能及时与驾驶过程中的各种元素因子进行博弈,此时世界模型就承担了「驾驶世界观」的作用。
因此,完善的高阶智驾系统,应当是端到端+世界模型结合形成具备交互博弈能力的老司机,这也是未来智能驾驶专用机器人的发展方向。
在端到端的基础上探索认知之路
现阶段,端到端对高阶智能驾驶的作用已被验证,而世界模型在端到端系统中可以用来构建环境的动态表示,提取对物理世界的抽象认识,确保各种工况下驾驶行为的拟人和流畅。
要实现从新手司机到老司机的跨越,软件算法与硬件算力缺一不可。早在2016年,地平线就率先提出了智能驾驶端到端的演进理念,2022年提出行业领先的智能驾驶感知端到端算法Sparse4D,在2023年发表端到端智能驾驶大模型UniAD,并且积累了基于交互博弈的端到端深度学习算法;在硬件上,地平线打造了新一代智能计算架构BPU 纳什,不仅是算力和功耗的优化,还将感知、规控等各种任务统一到Transformer框架下,更好支撑大模型带来的“随机应变”、“举一反三”等新能力,为端到端和世界模型的发展奠定了软硬基础。
地平线面向量产的端到端世界模型,能够通过隐式信息为自身同周边环境的“交互博弈”提供推演假想,同时通过显式信息为系统提供安全边界。举例来说,以前智驾系统高度依赖对世界的测绘,以及高精地图僵化的输入,如果地图真实路况和地图路况存在差异,人会怎么开?会继续往前探一探,小心的走一走,世界模型通过收集各种信息,进行综合理解,输出一个下游能够使用的、包含了隐式信息以及显式信息的世界理解结果,形成一个智能驾驶系统的世界观,它代表一套价值——不能不顾下限,上限也要高。
在操作上,主要输出三种下游能够使用的模态:第一是基于Transformer的端到端感知,提升全方位感知性能,加快系统迭代;第二是通过动态+静态+OCC三网合一兼顾低延时和高精度,提升全方位认知和推理能力;第三是通过虚拟相机长距离检测,带来更灵活的感知范围与精度,满足不同场景的感知规格。
具体交互方面,地平线提出在仿真、司机行为和专家系统等传统梯度的基础上,将世界模型作为额外的梯度来源,提供额外的损失函数,为预测未来事件提供支撑,以及确保多个摄像头捕捉到的信息一致性。这一模式在地平线发布的HSD™中有所体现:当地图信息和传感器信息输入World Model,通过数据训练、动静推理、场景理解和场景泛化处理后,输出对动静态目标和高维feature化数据的预测,即仿真、想象、演绎甚至脑补,支撑系统的交互博弈,进而作出驾驶控制动作,整个过程就像有个负责兜底、负责下限的人:他会持续地跟这个世界交互式推演心智模型,一方面假设这个世界充满多种可能性,所以会发送多个请求查询给到端到端的planner,让他帮忙推演未来会发生什么;另一方面又坚持自己的底线,在很多评估结论中,以安全、简洁、有原则的便捷来判定系统输出是否符合预期。
该模式的优势在于,既可输出高维feature,实现信息无损传输,驱动更拟人的驾驶操作,带来很高的体验上限,同时在少量规则安全兜底下,能输出高性能动静态目标结果,保障了系统的下限,实现高阶智驾产品Scale Up的突破。这基于神经网络的“黑盒”路径更加雷同人类驾车的大脑模型,是智驾向拟人化演进的关键一步。
离人近一点:世界模型的长远价值
可见,我们认为端到端世界模型的现实意义在于提升算法对复杂场景的处理能力,将对智驾技术的发展打开新的大门,减少“黑盒”带来的不可控风险。当智驾汽车开始越过时空认知的门槛,笨拙死板的驾驶模式会越来越少,也有利于道路整体驾驶环境的统一趋同,从智驾监管、车辆交互、行车安全等方面都有很大的推动作用。
除此之外,我们还看到世界模型带来的更多长远价值:对世界的领会。就像地平线智驾系统架构师刘景初说的那样,世界模型可以在感知环节输出相对完整的对驾驶环境的理解,进一步提升数据驱动对规则算法的替代程度。这意味着世界模型可以为端到端路线发展减负和加速,比如地平线面向量产的端到端World Model,已能实现降低75%反应时延、50%的网络负载和减少90%的动态代码行数,提同时升70%准召率,降低80%压线量误判率和20%Bbox回归误差,随着世界模型技术进一步发展,效果会更加显著。
第二个长远价值在于,对世界的领会意味着强大的泛化能力。举例来说,人类大脑模型在学车和开车的过程中会不断进行自我修正,最终形成经验,去适应和处理从来没有见过的case,而无需重复地建立这一过程。同理,世界模型可以让高阶智驾形成对复杂驾驶环境的通用理解,而非对输入的重复依赖,实现全场景覆盖、功能连贯性和体验一致性,比如在陌生区域同样能沿用熟悉区域的驾驶逻辑等,这点在地平线SuperDrive中也有体现。
当下,业内众多车企和供应商已经密集发布自己的端到端方案,世界模型成为绕不开的重要一环。随着软件与硬件的发展,尤其是大模型与算力的突破,使得智驾发展逐渐不再满足于最低限度的上路表现,而是从道路交通安全、驾驶体验优化的角度,让机器人驾驶行为无限接近真人,实现对人类驾驶员的解放。
地平线的技术信仰一直是以终为始和以人为本。将最终任务作为技术研发的起点,从一开始就追求让系统像老司机一样预测、推理、学习、决策……上路不是目的,好开、会开、爱开,减少人机差异带来的安全风险和驾驶陌生感,让人类生活更美好,才是技术进步的最大意义。
- |
- +1 赞 0
- 收藏
- 评论 0
本文由雪飘梦飞转载自地平线HorizonRobotics公众号,原文标题为:世界模型:地平线眼中的「认知大脑」,本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
相关推荐
SuperDrive™加持老司机挑战雨天城区晚高峰:很boring
余凯博士提出高阶智驾可用、好用、爱用的三个发展阶段。面对雨天低光、城市高峰期的双重挑战,好用有了具体的含义。凯哥形象地称之为:无聊,因为其绝对地丝滑无感。以下摘取了本次路线的7个典型复杂场景,且看老司机如何刷新高阶智驾能力上限。
智能驾驶是创造需求吗?
层出不穷的智能化功能真的是消费者需要的吗;智能驾驶,是否是在创造需求;智能驾驶作为一个强生态的产业链,在每个节点上是否演化出了其他相关的新需求?
地平线全新一代智驾方案SuperDrive背后的“思考”:如何让智驾决策更像老司机
地平线全新一代智驾方案Horizon SuperDrive™为了解决城区的规控难题采用了更拟人、更像老司机的“交互博弈”。从响应人,到服务人,再到解放人,智能驾驶在不断演进的过程中,完成的是人的高维延伸,用优雅不怂、从容笃定形容的高阶智驾系统,一定能够像“老司机”一样预测、推理、学习、决策。
地平线征程家族出货量突破700万,刷新百万量产速度!
近日,地平线征程家族出货量正式突破700万套,在刷新百万量产速度的同时,也标志着地平线软硬结合的高级辅助驾驶与高阶智驾解决方案实现大规模量产落地!
【IC】地平线发布征程6和高阶城区智驾样板间,以顶级的软硬结合全栈技术加速智驾平权
2024年4月24日,地平线举办“征程所向,向高而行”——2024智驾科技产品发布会。立足于智能驾驶时代,地平线凭借对软硬结合全栈技术理念的前瞻预判和深厚积累,重磅发布新一代车载智能计算方案征程®6系列以及Horizon SuperDrive™全场景智能驾驶解决方案,全面开启智能驾驶的范式级创新,加速智驾平权时代的到来。
你好,开发者:基于连续路径建模的车道拓扑构建算法主题分享
在ECCV 2024上,地平线-华中科技大学联合实验室提出一种车道拓扑构建新方法—— LaneGAP,通过端到端学习路径,旨在解决传统像素级和片段级建模方法所面临的车道连续性问题,实现了车道拓扑的连续性保留,大幅提升预测规划性能,为自动驾驶中的规划模块提供更可靠的路径指导。值得一提的是,LaneGAP 相关工作已经在地平线高阶智驾系统SuperDrive中落地应用。
地平线SuperDrive获铃轩奖金奖,软硬结合打造高阶智驾系统标杆
今年4月,地平线重磅推出凝聚软硬结合全栈智驾技术打造的高阶智驾系统——Horizon SuperDrive™(简称HSD)。作为下一代高阶智驾系统行业标杆,HSD以端到端的世界模型与交互博弈构成的领先算法架构,解决智驾产品性能上限和泛化一致体验的难题。系统不止拥有高度拟人的优雅从容姿态、超强通行效率,更能提供全国一致的极致智驾体验,让用户享受体验无断点、模式无切换、全场景无差别的安全美好出行。
一图看懂地平线智驾科技,助力技术普惠,让领先的智驾科技,陪伴用户每刻每程
地平线始终秉持软硬结合的技术理念以软件为牵引,硬件为驱动,系统为闭环实现算法、算力、系统的全面技术突破。
一组数字读懂地平线高阶智驾技术开放日!
地平线在北京举办的高阶智驾技术开放日上,展示了其Horizon SuperDrive™(HSD™)系统的最新进展。该系统旨在2025年实现高阶智驾的规模化发展,提供全场景智驾模式和安全保障。地平线的技术在多个算法挑战赛中获奖,并计划通过World Model和交互博弈模型实现性能和体验的优化。征程6芯片将支持这一全场景智驾解决方案,以实现高效、拟人化的驾驶体验。
地平线陈黎明:用户价值驱动,软硬结合技术推动智驾向高而行
智驾科技企业地平线总裁陈黎明博士发表了以《用户价值驱动,软硬结合技术推动智驾向高而行》为主题的论坛演讲,指出“2025年将成为高阶智驾的决赛点,五年后,高阶自动驾驶会开始成为标配;十年后,手动驾驶将成为新闻”。
全程零接管!地平线高阶智驾系统SuperDrive畅通闹市区雨天晚高峰
大众汽车集团(中国)CEO贝瑞德与地平线CEO余凯共同试乘地平线高阶智驾系统SuperDrive,在北京闹市区雨天晚高峰挑战中,SuperDrive以零接管、高效拟人驾驶完成50分钟复杂城区行程,展现卓越通过能力和丝滑驾驶体验,二人共赞其为理想智驾产品。
「老司机」首秀后,关于Horizon SuperDrive™的十问十答
4月24日,地平线发布了全新一代车载智能计算方案征程®6系列和Horizon SuperDrive™全场景智能驾驶解决方案。这两款产品的发布标志着地平线作为下一代全场景高阶智驾的行业标杆,为行业提供了全场景、全天候的高阶城区智能驾驶功能。围绕SuperDrive的拟人体验、端到端算法实践、原生软硬结合等优势,筛选了10个热门典型问题,带来了系统且更具针对性的解读。
再创新高,地平线征程家族出货量正式突破600万!
地平线车载智能计算方案出货量突破600万套,自2020年起持续快速增长。征程家族计算方案适应多级别智驾市场,合作车型超30家,累计量产车型270款。新推出的征程®6系列和SuperDrive全场景智能驾驶解决方案致力于提升城区NOA领域的智驾体验,预计2024年第四季度推出标准版量产方案。地平线以其技术成熟度和量产合作模式,稳居智驾科技供应商领先地位。
Horizon Robotics Launches Next Generation Autonomous Driving Solution Superdrive™ and Journey 6® Series
Beijing, April 24, 2024 - Horizon Robotics, a leading provider of advanced driver assistance systems(ADAS) and autonomous driving (AD) solutions for passenger vehicles, today hosted its 2024 Product Launch Event and unveiled its groundbreaking Horizon SuperDrive™ full-stack AD solution. In collaboration with industry partners, Horizon Robotics is committed to developing smart driving solutions tailored to cover from ADAS active safety to all-scenarioNOA(Navigate on Pilot), ensuring an enhanced driving experience with a focus on safety, comfort, and convenience for all consumers.
地平线发布高性能大算力整车智能计算平台战略,以征程5开拓汽车智能化新路径
2021年7月29日,边缘人工智能平台领导者地平线在上海国际汽车城隆重举办“征程与共,一路同行” 高性能大算力整车智能计算平台暨战略发布会。在开启开放生态战略的同时,地平线重磅发布一系列突破性技术产品与解决方案。
电子商城
现货市场
服务
提供稳态、瞬态、热传导、对流散热、热辐射、热接触、和液冷等热仿真分析,通过FloTHERM软件帮助工程师在产品设计初期创建虚拟模型,对多种系统设计方案进行评估,识别潜在散热风险。
实验室地址: 深圳 提交需求>
拥有中等规模的SMT、DIP以及成品组装产线;支持PCBA及成品OEM/ODM代工组装制造;在嵌入式系统、物联网系统等具备专业性量产制造的项目组织和服务能力。
提交需求>
登录 | 立即注册
提交评论