一文看懂地平线如何再造“摩尔定律“
3月 25 日,地平线BPU算法负责人罗恒以《地平线如何追求极致效能?》为题展开了一场别开生面的线上分享。作为「地平线核心技术系列公开课」的“奠基之课”,罗恒从当前AI芯片的最大挑战,到MLperf的理想性与局限性,再到地平线 BPU(Brain Processing Unit,地平线自研人工智能专用处理器架构)的演进之路娓娓而谈,结合人工智能的发展趋势深度剖析了地平线通过软硬结合挑战极致效能,再造“摩尔定律”的技术历程。
AI芯片最大的挑战
自 2015 年起,AI芯片逐渐成为人们所关注的趋势。产业参与者们都希望能够做出极具竞争力的芯片,种种挑战中最大的莫过于算法发展快和芯片迭代慢之间的矛盾。以2016年DeepMind提出的人工神经网络WaveNet 为例,它能够模仿出让真假难辨的人类声音,但其计算量之大甚至无法在当时最强大的GPU上实时处理,接近一分钟的延迟让这项革命性突破始终无法真正的得到应用。2017年,算法优化后的Paralle WaveNet让计算效率提升了1000倍,谷歌将其成功应用到谷歌助手。假如某公司在此时(2017年)准备推出一款用于嵌入式系统的芯片,使得手机等移动场景也可以应用这项AI成果,是非常合理的选择。但到了2018年,算法又发生了优化,核心计算方式历经RNN、DalitedCNN 已升级到了Spares RNN,让手机CPU也可以运行。而2017年研发的芯片,在2019年才能面世,这是一个悲伤的故事,反映了算法快速发展与芯片迭代较慢之间的矛盾。
图 1 呈现快速演进的 AI 算法趋势
回到地平线的主航道视觉感知上。2012年的AlexNet在ImageNet上的突破, 拉开了这一波的AI浪潮的序幕,2012年到2016年,各种网络出现,起初致力于提升ImageNet,VGG模型扩充过快受限于GPU,接下来的模型开始适度的考虑精度和算力的折中,ResNet开始给出扩充网络算力获得不同精度的方案。2016年之后,ImageNet 精度逐渐饱和,计算效率优化得到重视,算法实现开始追求用更少的计算得到更高的精度,SpueezeNet、MobileNet、ShuffleNet就是这一时期的“新”卷积神经网络代表。同时也开始了使用机器学习方法自动化搜索网络,以NASNet 为代表,但主要还是在搜索网络子结构。到了2019年,卷积神经网络架构演进逐步收敛,子结构收敛于MobileNet v2 的子结构,模型扩充方法则来自于 EfficientNet 的 Compound scaling method。以上 AI 算法的演进趋势对AI芯片厂商之间的竞争产生了极为重要的影响:固然芯片架构设计能力,芯片SOC的能力非常重要,但是由于算法在不断的变化,如何能够使得设计出来的芯片在面世的时候还能够符合算法的最新的进展,在现在乃至可预见的未来都将是 AI芯片竞争的关键点。
什么是更好的AI芯片?
算法演进与芯片迭代的脱节是摆在面前的挑战,那么,如何为AI芯片赛道上的玩家设立清晰的目标?如何拉通研究与市场,拉通工程与开发,并通过最优代表性的任务在实际场景中的测试反映机器学习算法的演进呢?目前通用的基准测试是 MLPerf。但事实上,2019年MLPerf Inference V0.5使用的分类模型仍是ResNet50和MobileNet V1,检测模型则是MobileNet V1和RerNet34。从这一点来看,MLPerf Inference尽管是刚刚出现的,但由于采用相对较老的模型其已经落后于算法进展两年了。此外,由于量化模型的普及型,MLPerf希望设计统一的标准,但却因为精度问题最终选择降低标准(MobileNet)。提交者和标准设计方之间的博弈,使得任务往往没有办法像预期那样更新模型。但地平线始终认为,评估 AI 芯片的真实效能需要与时俱进的标准。因此为了更严格的测试真实效能,选用了目前如前所述的视觉领域最高效的 MobileNet V2结构(EfficientNet 并不改变计算方式,其中的SE 结构也被 EfficientNetTPU 证明并不是关键因素)。实测表明,工艺领先两代的两款竞品,在 MobileNet V2的帧率上显著落后于地平线征程二代芯片。
图 2 在当前视觉领域最高效的 MobileNet V2 结构上,地平线与征程二代与两款竞品的测试结果
除此之外,想要实现极致能效还需要考虑到其他因素。对于芯片来说,功耗最大的地方并不在于计算,还在于数据的搬运,如何能够减少 DDR (Double Data Rate SDRAM,双倍速率同步动态随机存储器)的吞吐,其实是降低功耗的一个关键的地方。这方面地平线也做了针对性的优化,在帧率超过竞品芯片的情况下只有竞品1/4DDR 吞吐率。从而,一方面用户可以使用更低成本的DDR,另一方面则是我们不可能假设用户加速模型的时候是DDR独占,一定需要和ISP、Codec 以及各种应用一起使用带宽,征程二代的低DDR吞吐率使得用户可以充分使用算力而不受限于DDR带宽。
BPU 软硬结合打造极致效能
回到设计征程二代BPU的2017年,我们观察到学术界的两个信号,Xeception和MobileNet 分别使用了Depthwise Convolution 在ImageNet高精度和中低精度都取得了很好的效率。
图 3 2017年,学术界的特殊信号——Depthwise Convolution
我们迅速在地平线关心的视觉任务、自由数据上做了验证。证明了Depthwise Convolution 带来的效率提升。进而我们做了初步的优化,8bit 量化了 Depthwise Convolution 模型,量化模型精度>浮点模型精度*0.99(半年后Google量化论文发表,但精度并不理想);尝试了使用1x1 扩大 Depthwise Convolution的 kernel 数目同时减少1x1 convolution引入的计算量(与一年后发表的MobileNet v2相似);尝试了不同kernel size,发现扩大kernel size 到7可以提升精度在只付出很小的计算代价下(与两年后的 Mixconv 论文一致)。在完成初步验证和优化之后,我们做了BPU的FPGA版本,演化成为后来的 Matrix(曾获 2019年CES创新奖,这也是车辆智能和自动驾驶技术分类奖项下唯一获此殊荣的中国产品),实车测试了我们的所有方案。
图 4 软硬结合,挑战极致效能
以上的验证、优化、实际应用场景打磨,为我们的架构设计提供了参考,使得我们从一开始就面向未来的算法趋势进行优化,在今天也得到了证明。
图 5 地平线 BPU 研发路线图
可以说,地平线的最大特点,就是对关键算法的发展趋势进行预判、在最重要的场景中垂直打穿,前瞻性地将其计算特点融入到架构设计当中,使得AI处理器经过两年的研发,在推出的时候,仍然能够很好地适应最新的主流算法,同时保证满足最关键应用的需求。因此,和其他典型的AI处理器相比,地平线的AI处理器,随着算法的演进趋势,始终能够保持相当高的有效利用率,从而真正意义上受益于算法创新带来的优势。技术先发优势推动商业化进程,领先的商业落地探索又反哺技术进步。在AI芯片这条硬科技创新道路上,地平线将继续坚持深耕“算法+芯片+工具链”基础技术平台。预计今年内,地平线将会推出新一代车规级AI芯片,以人工智能赋能万物,让每个人的生活更安全、更美好!
- |
- +1 赞 0
- 收藏
- 评论 1
本文由三年不鸣转载自地平线,原文标题为:一文看懂地平线如何再造"摩尔定律"| 大牛讲堂 ,本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
相关推荐
希荻微新品快讯:硅阳极锂电池高效赋能AI手机电源管理芯片
高性能电源管理芯片在AI手机中扮演着至关重要的角色。其中,DC/DC芯片作为电源管理芯片的重要组成部分,更是发挥着不可或缺的作用。DC/DC芯片的主要功能包括电压转换、电流控制和稳定性保障。它能够通过内部的功率开关管、电感、电容等关键部件,高效地实现电压的升降,并确保输出电流的稳定性和精度。
地平线推出突破性能天花板的8MP前视感知方案,高效灵活地进行多类AI任务处理并实现实时检测与精准识别
地平线Mono系列是目前唯一实现前装量产的国产单目视觉ADAS方案,累计斩获十余款车型定点,Mono3 也成为全球首个量产级8MP前视感知方案。面向ADAS的规模化落地,地平线坚持定位Tier-2,通过提供征程芯片开放平台,持续以软硬协同。
灿芯半导体受邀参加2024国际AIoT生态发展大会,展示在“人工智能+无线连接”的成果,打造智能生活新体验
在当今这个科技飞速发展的时代,人工智能(AI)与无线连接技术的融合开启了一个全新的智能无线时代,从智能家居、智慧零售到智慧城市,从智能安防到智慧医疗等领域,这一创新组合正以前所未有的速度和深度改变着我们的生活和工作方式,推动社会向智能化、自动化迈进。
【应用】地平线AI SoC芯片X3ME00IBGTMB-H用于3D相机,集成四核Cortex A53 CPU
3D相机应用领域越来越广泛,除了常见的3D影片之外,还可以应用于物流自动化、机器人视觉、障碍检测等方面。3D相机是有两个镜头的,分别是用于拍摄场景和测量自身与场景内物体之间的距离。镜头获取信息需要一个强大芯片来处理,本文介绍一款SOC可用于3D相机上。
【IC】希荻微推出业界领先的硅阳极锂离子电池专用DC-DC芯片HL7603,为AI手机等设备长续航加持
针对硅阳极锂离子电池的特点,Halo Microelectronics希荻微推出了HL7603,一款专为硅阳极锂离子电池设计的DC-DC芯片,大幅提高电池的电量输出和提高电池续航能力。HL7603的诞生,极大的推动硅阳极电池在移动设备上的普及应用,满足AI手机对电池管理的高效需求。
AI加速边缘计算,聚焦AIOT芯片,NPU SOC,离线语音MCU,高算力智能模组等
世强硬创联合地平线,阿普奇,启英泰伦,美格智能,普林芯驰,唯创知音,九芯电子,芯闻,VINKO,MERRY带来AI新产品,聚焦AIOT芯片,NPU SOC,离线语音MCU,高算力智能模组等,加速边缘计算。
【应用】地平线新一代AIoT AI SOC X3ME00IBGTMB-H成功用于AI分析盒子,提供5TOPS的算力
在盒子的主控方面,客户采用的是地平线的新一代AIoT AI SOC 旭日3系列X3ME00IBGTMB-H,这是地平线针对 AIoT 场景,推出的新一代低功耗、高性能的智能芯片,集成了地平线最先进的伯努利2.0 架构引擎( BPU® ),可提供5TOPS的算力。
恒烁半导体(合肥)股份有限公司
型号- ZB25WQ16,ZBSD01GAYIGY,ZB32L032K8Q6,CX32L003,ZB32L030G8P6,ZB35Q01AYIGY,ZB25VQ40,ZB25LQ64,ZB32L030K8T6,ARM CORTEX MX 系列,ZB30Q048FAQIG,ZB32L032C8T6,ZB32L032G8P6,ZB32F103,ZB32L0系列,ZB25WD80,ZB30Q028FARIG,ZB25D80,ZB32P203,ZB25WD40,ZB25D40,ARM®CORTEX®-M0,ZB30Q018FAQIG,ZB25S512,ZB25Q256,ZB35Q02AYIGY,ZB25WQ40,ARM CORTEX MX,ZB25VQ32,ZB25LQ16,ZB25VQ80,ZB32F415,ZB32L003S,ZB25LD40,CX32L003系列,ZB32L032,ZB25VQ128D,ZB25LD80,ZB35Q04AYIGY,ZB25LD20,ZB25LQ128C,CX32L003F8Q6,ZB25LQ80,ZB25VQ64,ZB30Q048FARIG,ZB32F403,ZB25WQ80,ZB30Q028FAQIG,ZB25WD20,ZB25D20,ZB25LQ128,ZB32L103,ZB25VQ16,ZB30Q018FARIG,ZB32L032K8T6,CX32L003F8P6,ZB32L0,ZB32L030K8Q6,ZB25LQ32,ZB32F437,ZB25VQ128,ZB25VQ32D
【应用】地平线推出基于AI SoC X3M的扫地机方案,提供配套TROS操作系统和AI算法
地平线推出基于Sunrise®旭日芯片的扫地机方案,提供芯片+操作系统+算法的完整解决方案,实现更智能、更稳定、更主动的智能扫地机应用。
基于安信可Ai-M61 Wi-Fi6&蓝牙双模模组接入米家,通过手机控制LED灯
Ai-M61-32S(下称模组)是由深圳市安信可科技有限公司开发的Wi-Fi6&蓝牙双模模组,搭载BL618芯片作为处理器,支持Wi-Fi 802.11b/g/n/ax协议和BLE 5.3协议。可广泛应用于音视频多媒体、物联网(IoT)、移动设备、可穿戴电子设备、智能家居等领域。
【应用】算力高达5TOPS的SOC X3ME00IBGTMB-H用于双目AI相机设计,满足输入图像的图像信号处理要求
某客户做一款双目AI相机,需要跑自己的识别算法,用于识别一些物体,算法是自研的,视频输出部分要求分辨率达到4K级别。在相机处理器上需要一款有一定算力和多路视频处理能力的芯片,客户采用地平线的旭日3系列AI SOC X3ME00IBGTMB-H,该款芯片性能强大,算力和视频处理能力均能满足需求。
【应用】地平线AI SoC芯片X3M助力智能停车场系统设计,可实现车牌识别、车流量检测等功能,算力可达5Tops
现在,随着智能芯片、算法的技术发展,方便快捷、稳定可靠的非接触式智能停车设备已走进大大小小的城市,成为当今停车场设备的主流。地平线推出的X3M系列AI SoC芯片,可应用于停车场的智能识别设备,用来检测施工车辆的车牌、类别,并可实现计算车流量的功能。
时钟芯片在人工智能领域的应用
时钟芯片是一种微电子设备,用于产生精确的时间信号。人工智能(AI)作为当今科技领域最热门的技术之一,正在逐步渗透到我们的日常生活中。在这个过程中,时钟芯片的应用起到了不可忽视的作用。本文赛思将详细探讨时钟芯片在人工智能领域的应用及其潜力。
【产品】地平线天工开物AI开发平台OpenExplorer统一发布功能介绍
OpenExplorer,中文名称天工开物AI开发平台,是地平线AI芯片开放赋能的重要武器之一,主要由AI Toolchain工具链,AI Express应用开发中间件、AI Solution应用参考解决方案以及系统软件组成。
电子商城
现货市场
服务
提供电机的输出反电势波形测试、驱动芯片输入/输出波形测试服务,帮助您根据具体应用场景来选择适合的电机驱动芯片型号,确保电机驱动芯片能够与其他系统组件协同工作达到最佳效果。支持到场/视频直播测试,资深专家全程指导。
实验室地址: 成都 提交需求>
世强深圳实验室提供Robei EDA软件免费使用服务,与VCS、NC-Verilog、Modelsim等EDA工具无缝衔接,将IC设计高度抽象化,并精简到三个基本元素:模块、引脚、连接线,自动生成代码。点击预约,支持到场/视频直播使用,资深专家全程指导。
实验室地址: 深圳 提交需求>
登录 | 立即注册
提交评论