5T算力BPU × 14亿参数LLM,地平线旭日®3成功部署大语言模型
近日,地平线成功在旭日3中的BPU®计算单元上,部署运行参数规模高达14亿的大语言模型(Large Language Model , LLM)。这不仅是业界在端侧成功部署大模型的一次突破性实践,更验证了BPU®对先进神经网络算法的高效支持,为大模型在端侧实现产品级应用拓展了更广阔的想象空间。
大模型端侧部署的技术实践对加速智能化产业变革具有重要意义。端侧部署具备实时性、低时延优势,能够灵活支持弱网或无网等丰富场景,为终端用户提供更流畅、稳定的交互体验;同时端侧支持信息本地化处理,可有效保护用户数据与隐私安全;端侧计算还将大幅缓解云端算力压力,端云协同更会驱动产业降本提效,加速实现大模型技术的应用普惠。
然而,大模型端侧推理部署仍面临巨大挑战。区别于云端推理部署计算资源应用尽用,端侧部署大模型并实现产品级应用,则需综合考量不同应用间的计算资源分配,以及计算效率、带宽占用与功耗等各项指标。如何在众多约束条件下最大程度地提高大模型端侧推理效率是面临的首要技术挑战。此外,推理过程将大量占用内存带宽,如何在不影响推理结果的前提下减少内存访问,降低带宽依赖,进而减少推理耗时,则需要在软件工程层面进行系统优化。
作为软硬协同技术路径的坚定践行者,地平线通过硬件资源的最大化利用和软件工程的极致优化,并成功在5 TOPS算力的边缘计算芯片上部署高达14亿级参数的大语言模型。这源于旭日3所搭载的双核BPU®伯努利计算单元对神经网络计算的原生性支持,能够在处理大语言模型方面提供高性能、低功耗的计算处理能力。另一方面,地平线通过软硬协同编译,采用算子重写、算子重排、算子融合和KV-Cache等技术,进一步优化了模型结构,实现推理速度的成倍提升。
从资源占用情况看,该大语言模型在旭日3上的应用效果表现优异,CPU占用单核60%、BPU占用单核50%,为后续其他应用预留充足的算力资源;同时在5GB/s内存带宽基础上实现了约4~5字/秒的生成速度,可充分满足实时性需求;在最能体现真实效能的FPS/Watt指标上,该模型的运行效能相较于LLaMA.cpp等纯CPU方案提升了2.5倍。这也意味着,旭日3对此大语言模型的支持性可达到产品级应用水平。
地平线现已通过GitHub开放该模型的推理代码,开发者可通过RDK X3系列开发者套件,即刻前往「NodeHub全开源机器人应用中心」尝鲜体验大语言模型在旭日3上的实际运行效果,更期待各位开发者参与「星光之路」活动,一同探索大模型在RDK X3上的上层应用落地!
我们相信,通过软硬协同的技术路径,大模型端侧应用部署将驱动人机交互方式变革,多维度提升用户智能化体验,加速“智能计算平权”时代的到来。
- |
- +1 赞 0
- 收藏
- 评论 0
本文由拾一转载自地平线HorizonRobotics公众号,原文标题为:5T算力BPU × 14亿参数LLM,地平线旭日®3成功部署大语言模型,本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
相关推荐
打造极致效能的边缘AI计算基础方案,构建绿色、安全的智能世界
在近日举办的CES Asia 上,地平线联合创始人&副总裁黄畅博士受邀在CES主论坛发表主题为《边缘AI计算发展趋势》的演讲。从边缘计算推动的行业变化、AI能效与企业责任、有效算力的定义、地平线开放赋能的战略与开发者平台分享了其对人工智能时代边缘计算趋势的洞察并深度解读地平线的“AI on Horizon, Journey Together”战略。
地平线高性能大算力整车智能计算平台暨战略发布会精彩回顾 ∣视频
征程与共,一路同行。
地平线RDK X3语音通信算法通过Alexa ACM方案认证,接口兼容树莓派具有5TOPS端侧推理与4核A53处理能力
地平线RDK X3的语音通信算法通过ACM Qualification认证。ACM认证主要面向通信降噪和回声消除算法领域,帮助Alexa设备顺畅地连接与通信。此次通过认证的语音通信算法,依托地平线RDK X3打造,在通信降噪和回声消除方面具备强劲的性能表现。
AI加速边缘计算,聚焦AIOT芯片,NPU SOC,离线语音MCU,高算力智能模组等
世强硬创联合地平线,阿普奇,启英泰伦,美格智能,普林芯驰,唯创知音,九芯电子,芯闻,VINKO,MERRY带来AI新产品,聚焦AIOT芯片,NPU SOC,离线语音MCU,高算力智能模组等,加速边缘计算。
地平线旭日X3系列智能芯片开发经验资料汇总
旭日X3 是地平线针对 AIoT 场景,推出的新一代低功耗、高性能的智能芯片;集成了地平线最先进的伯努利2.0 架构引擎( BPU® )。包含 X3M 和 X3E 两颗芯片,X3M 主要面向 8M 智能前视市场和边缘计算,提供 5TOPS 算力;X3E 主要面向 5M 智能前视市场,提供 3TOPS 算力。
【应用】地平线AI SOC芯片X3M系列助力边缘计算盒子应用,算力可达5Tops
本文将介绍地平线X3M系列AI SOC芯片,可应用于边缘计算盒子,实现视觉部分的算法。镜头模组将采集到的信息传送给X3M芯片,芯片通过算法,实现视觉部分的识别,如人脸识别,手势识别,火焰识别的动作,然后将信息通过接口进行传输。
【应用】 内置地平线X3芯片的图漾ToF智能相机发布,实现5TOPS本地AI算力集成,助3D视觉应用普及
2022年9月7日, 图漾科技新款ToF智能工业相机TL460-S1-E1正式发布。该内置地平线旭日®X3芯片,实现5TOPS本地AI算力集成,助力打造集高达30帧/秒的RGB-D图像采集分析、实时图像处理和机器学习等多功能一体化智能产品。
【视频】2023年8月17日可编程器件新技术研讨会
地平线、EPSON、中微等分享RISC-V MCU、车规32位MCU、低功耗时钟芯片、车规级存储、可编程时钟等新品。
【产品】5TOPs强大算力,AI算法丰富的边缘计算芯片 | 视频
地平线AIOT技术交付团队负责人程飞介绍地平线旭日AI芯片:X3M和X3E。其中X3M具有5Tops的强大算力,4核A53(4xCortexA53)的处理性能,4K60帧(4K@60fps)的图像编解码能力。
【应用】搭载地平线旭日2边缘AI芯片的小米智能摄像机AI探索版,首次实现了AI人形侦测功能
本文将从硬件设计、AI功能、计算模块三个维度拆解小米智能摄像机AI探索版,这是一款搭载地平线旭日2边缘AI芯片、小米IoT生态加持的家用智能摄像机。小米智能摄像机AI探索版不仅在硬件参数上提升显著,得益于地平线旭日2的强大性能和算法加持,在终端侧AI计算上更是提升显著,实现了对多种复杂AI场景的支持。
【应用】可应用于边缘计算盒子的X3M核心板X3M SOM,集成DDR/EMMC/电源芯片,视频接口丰富
X3M核心板在边缘计算盒子中的应用:用X3M的核心板X3M SOM作为系统板,板子上集成DDR/EMMC/电源芯片,只用根据需求添加以及配置相应的接口如USB接口、RJ45接口等等,开发算法搭配外部镜头模组,即可量产。
地平线推出全新一代AIoT边缘AI芯片平台旭日3,加速推动产业智能升级
近期,地平线“释放·芯效能”产品发布会上宣布推出全新一代AIoT边缘AI芯片平台—地平线旭日3。依托极致效能、开放易用的旭日3芯片,地平线在广泛的AIoT应用领域持续探索,坚定推动边缘AI计算趋势,建设地平线AI芯片生态,全面加速商业落地进程。
【应用】海信健身智慧屏X7H搭载拥有业界领先智能计算能力的地平线旭日3 AI芯片,实现高效丝滑的屏幕互动
地平线旭日3芯片通过采用领先的BPU®伯努利架构2.0,拥有业界领先的智能计算能力,可高效处理智能场景计算,满足4K视频处理、语义三维环境建模、通用模型支持等需求。目前,地平线旭日系列芯片实现规模化落地量产。
电子商城
现货市场
服务
支持微型计算机 、便携式计算机显示设备、投影仪、打印设备、绘图仪、多用途打印复印机、扫描仪、计算机内置电源、电源适配器、充电器、服务器、收款机等产品中国强制性产品认证。
提交需求>
Ignion可支持多协议、宽频段的物联网天线方案设计,协议:Wi-Fi、Bluetooth、UWB、Lora、Zigbee、2G、3G、4G、5G、CBRS、GNSS、GSM、LTE-M、NB-IoT等,频段范围:400MHz~10600MHz。
最小起订量: 2500 提交需求>
登录 | 立即注册
提交评论