RDK X3设置语音识别算法应用案例,助力智能家居实现语音控制功能

2024-11-23 D-Robotics官网
RDK X3,D-Robotics RDK X3,D-Robotics RDK X3,D-Robotics RDK X3,D-Robotics


功能介绍


地平线智能语音算法采用本地离线模式,订阅音频数据后送给BPU处理,然后发布唤醒、命令词识别、声源定位DOA角度信息以及语音ASR识别结果等消息。智能语音功能的实现对应于TogetheROS.Bot的hobot_audio package,适用于地平线RDK配套的麦克风阵列。


应用场景:智能语音算法能够识别音频中的唤醒词以及自定义的命令词,并将语音内容解读为对应指令或转化为文字,可实现语音控制以及语音翻译等功能,主要应用于智能家居、智能座舱、智能穿戴设备等领域。


物料清单



使用方法


准备工作


1. 在体验之前,需要具备以下基本条件:


2. 地平线RDK已烧录好地平线提供的Ubuntu 20.04系统镜像


音频板正确连接到RDK X3


连接步骤:


将麦克风板连接到地平线RDK X3 40PIN GPIO 接口上,连接后实物如下图:


4mic麦克风板



2mic麦克风板



配置麦克风板,参考RDK用户手册音频转接板章节。


安装功能包


启动RDK X3后,通过终端SSH或者VNC连接机器人,复制如下命令在RDK的系统上运行,完成相关Node的安装。


tros foxy版本



tros humble版本



运行智能语音程序


智能语音功能支持对原始音频降噪处理之后进行ASR识别,默认的唤醒词和命令词定义在智能语音功能模块目录下 config/hrsc/cmd_word.json 文件,默认为:



cmd_word第一个词为唤醒词,后续为命令词,这些词用户都可以根据需要配置,若更改唤醒词效果可能会与默认的唤醒词命令词效果有差异。推荐唤醒词以及命令词使用中文,最好是朗朗上口的词语,且词语长度推荐使用3~5个字。


另外,智能语音功能支持输出声源定位DOA角度信息,单位为角度,环形麦克风阵列取值范围:0度~360度,目前仅4mic麦克风板支持输出DOA信息,2mic麦克风板不支持。


角度的相对位置关系与麦克风的安装位置强相关,4麦环形麦克风阵列DOA角度示意图如下:



地平线RDK板端运行hobot_audio package:


1. 拷贝配置文件


tros foxy版本



tros humble版本



2. 确认配置文件 config/audio_config.json


需要确认的字段有:


micphone_name ,配置音频设备号,默认为"hw:0,0"。若加载音频驱动时无其他音频设备连接,则无需修改该字段,若加载音频驱动时有其他音频设备连接,例如USB麦克风或带麦克风功能的USB摄像头,则需要修改该字段为对应的设备号,以"hw:0,0"为例,表示音频设备Card0 Device0。


micphone_chn , 配置音频板支持的通道数,4mic麦克风板该字段设置为8,2mic麦克风该字段设置为2。


asr_mode ,配置是否发布ASR结果,默认值为0,表示不发布ASR结果。若要发布ASR结果,需要将该字段改为1或2,1表示唤醒后进行一次ASR识别并发布结果,2表示一直进行ASR识别并发布结果。


asr_channel ,ASR识别使用的通道号,4mic麦克风板设置为3,2mic麦克风设置为1。


3. 配置tros.b环境和启动应用


tros foxy版本



tros humble版本



4. 结果分析


地平线RDK板端运行终端输出如下信息:



以上log显示,音频设备初始化成功,并且打开了音频设备,可正常采集音频。


当人依次在麦克风旁边说出“地平线你好”、“向前走”、“向左转”、“向右转”、“向后退”命令词,语音算法sdk经过智能处理后输出识别结果,log显示如下:



log显示,识别到语音命令词“向前走”、“向左转”、“向右转”、“向后退”,并且输出DOA的角度信息,如“recv hrsc sdk doa data: 110”字段表示DOA角度为110度。


hobot_audio默认发布的智能语音消息话题名为:*/audio_smart*,在另一个终端执行使用ros2 topic list命令可以查询到此topic信息:



若开启发布ASR结果,发布消息话题为:*/audio_asr*,ros2 topic list结果为:



接口说明


话题



参数



audio_config.json配置文件参数说明:



cmd_word.json


此配置文件配置语音智能分析部分的唤醒词以及命令词,配置文件的第一项为唤醒词,后面的是命令词。默认配置文件配置如下:



原理简介


智能语音hobot_audio package开始运行之后,会从麦克风阵列采集音频,并且将采集到的音频数据送入语音智能算法SDK模块做智能处理,输出唤醒事件、命令词、ASR结果等智能信息,其中唤醒事件、命令词通过audio_msg::msg::SmartAudioData类型消息发布,ASR结果通过std_msgs::msg::String类型消息发布。


具体流程如下图:



常见问题


无法打开音频设备?

确认音频设备连接是否正常

确认是否正确配置音频设备

确认配置文件 config/audio_config.json 设置正确

授权代理商:世强先进(深圳)科技股份有限公司
技术资料,数据手册,3D模型库,原理图,PCB封装文件,选型指南来源平台:世强硬创平台www.sekorm.com
现货商城,价格查询,交期查询,订货,现货采购,在线购买,样品申请渠道:世强硬创平台电子商城www.sekorm.com/supply/
概念,方案,设计,选型,BOM优化,FAE技术支持,样品,加工定制,测试,量产供应服务提供:世强硬创平台www.sekorm.com
集成电路,电子元件,电子材料,电气自动化,电机,仪器全品类供应:世强硬创平台www.sekorm.com
  • +1 赞 0
  • 收藏
  • 评论 0

本文由雪飘梦飞转载自D-Robotics官网,原文标题为:语音识别算法,本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

评论

   |   

提交评论

全部评论(0

暂无评论

相关推荐

智能语音聊天机器人功能及使用指南

智能语音聊天机器人通过识别用户语音,调用ChatGPT API获取答复并播放,实现语音聊天。需地平线RDK、ChatGPT API Key及音频板等物料。准备、组装后,安装功能包并运行,配置音频和ChatGPT API Key。常见问题包括设备连接、音频驱动、配置文件及网络访问等。

设计经验    发布时间 : 2024-10-18

基于RDK X3的机械臂物体拾取操作实例

本文介绍RDK X3该功能包接收用户选择方块数字的请求,通过yolov5检测目标,在Z轴距离确定的情况下解算出物体的三维坐标,并请求仿真机械臂控制节点夹取物体的应用实例。

设计经验    发布时间 : 2024-10-28

在RDK的系统运行实现视觉惯性里程计应用案例,实现机器人定位

视觉惯性里程计(Visual Inertial Odometry,VIO)是融合相机与惯性测量单元(Inertial Measurement Unit,IMU)数据实现机器人定位的算法。VIO定位算法具有成本低、适用环境广等优点,在室外环境下能够有效弥补卫星定位中遮挡、多路径干扰等失效场景。优秀、鲁棒的VIO算法是实现室外高精度导航定位的关键。

设计经验    发布时间 : 2024-11-23

多模态感知仿生机械手项目案例

本项目提供了一款五指仿生机器手,其仿照人手的外观与自由度,使其能够作为人形机器人的末端执行器,完成人手所能完成的任务。

应用方案    发布时间 : 2024-10-29

双机械臂四转四驱机器人设计与实现

该研究设计了一种创新的双机械臂四转四驱机器人,旨在突破传统轮式机器人的限制。该机器人底盘采用四转四驱设计,显著提升了灵活性和负载能力,使其能够在复杂环境中精确移动和执行任务。双机械臂系统使机器人能够高效与现实生活互动,完成复杂任务。

应用方案    发布时间 : 2024-10-29

D-Robotics 人形机器人自动踢球控制

本文介绍了人形机器人自动踢球控制的设计方案及应用。该功能包通过接收物体识别节点的消息,控制机器人自动踢球。

设计经验    发布时间 : 2024-11-23

NodeHub快速入门

NodeHub是地平线为机器人爱好者打造的智能机器人应用中心,旨在以更加简单、高效、开放的方式协助机器人爱好者开发自己的智能机器人。

技术探讨    发布时间 : 2024-10-30

RDK X3 机械臂捡垃圾经验分享

hobot_arm package 是基于 mono2d_trash_detection package 开发的2D垃圾目标检测+机械臂抓取的应用示例。在地平线的旭日X3派上利用BPU进行模型推理获得感知结果,利用幻尔机械臂作为下位机,进行垃圾抓取的示例。

设计经验    发布时间 : 2024-10-30

在RDK X3体验Cartographer激光雷达SLAM技术,实时获取较高精度的地图

本功能所使用的Cartographer是google推出的一套基于图优化的SLAM算法,可以实现机器人在二维或三维条件下的定位及建图功能,这套算法的主要设计目的是满足机器人在计算资源有限的情况下,依然可以实时获取较高精度的地图。该功能支持机器人实物和Gazebo仿真两种体验方式。

设计经验    发布时间 : 2024-11-19

基于RDK X3开发板设计并实现的手持slam建图设计

这里使用RDK X3开发板设计并实现了一款SLAM手持建图设备,它使用RDK X3开发板的计算性能,通过激光雷达实现一个纯激光里程计,通过IMU对激光数据进行畸变矫正和对SLAM的姿态矫正,实现一个手持的SLAM建图功能。

设计经验    发布时间 : 2024-11-04

地平线RDK实现智能循线机器人应用示例

巡线任务,即机器人小车能够自主跟着一条引导线向前运行。地平线RDK通过摄像头获取小车前方环境数据,图像数据通过训练好的CNN模型进行推理得到引导线的坐标值,然后依据一定的控制策略计算小车的运动方式,通过UART向小车下发运动控制指令实现整个系统的闭环控制。

设计经验    发布时间 : 2024-11-12

基于RDK X3的chat robot应用示例,实现用户和机器人语音聊天功能

智能语音聊天机器人识别用户语音内容,然后调用OpenAI API获取答复,最后将该答复播放出来,实现用户和机器人语音聊天功能。

设计经验    发布时间 : 2024-11-18

NodeHub快速入门示例:小海龟绘画

NodeHub快速入门示例,通过键盘控制小乌龟进行绘画。

设计经验    发布时间 : 2024-11-11

基于RDK X3的人体跟随机器人功能示例

本示例通过视觉进行人体目标检测与跟踪,并生成运动控制指令控制机器人自动跟随目标运动。该功能支持机器人实物和Gazebo仿真两种体验方式。

设计经验    发布时间 : 2024-11-08

亚博智能RDK X3 ROBOT机器人项目实例,实现RKD X3 ROBOT的基本运动控制和位姿反馈

亚博智能RKD X3 ROBOT是一款面向机器人开发者和教育生态的智能机器人开发套件。该套件以旭日X3派为核心运算单元,以TogetherROS.Bot为核心机器人操作系统,集成成了建图、导航、人体跟随、手势识别等功能。本项目为亚博智能RKD X3 ROBOT机器人最小功能系统,该系统能够实现RKD X3 ROBOT的基本运动控制和位姿反馈。

设计经验    发布时间 : 2024-11-16

展开更多

电子商城

查看更多

品牌:D-Robotics

品类:开发套件

价格:¥699.0000

现货: 99

品牌:D-Robotics

品类:开发板套件

价格:¥1,299.0000

现货: 5

品牌:D-Robotics

品类:摄像头单目模组

价格:¥249.0000

现货: 5

品牌:D-Robotics

品类:开发板套件

价格:¥1,299.0000

现货: 5

品牌:D-Robotics

品类:摄像头单目模组

价格:¥199.0000

现货: 5

品牌:D-Robotics

品类:开发套件

价格:¥549.0000

现货: 0

品牌:

品类:

价格:

现货:

品牌:

品类:

价格:

现货:

品牌:

品类:

价格:

现货:

品牌:

品类:

价格:

现货:

品牌:

品类:

价格:

现货:

品牌:

品类:

价格:

现货:

现货市场

查看更多

暂无此商品

海量正品紧缺物料,超低价格,限量库存搜索料号

查看更多

授权代理品牌:接插件及结构件

查看更多

授权代理品牌:部件、组件及配件

查看更多

授权代理品牌:电源及模块

查看更多

授权代理品牌:电子材料

查看更多

授权代理品牌:仪器仪表及测试配组件

查看更多

授权代理品牌:电工工具及材料

查看更多

授权代理品牌:机械电子元件

查看更多

授权代理品牌:加工与定制

世强和原厂的技术专家将在一个工作日内解答,帮助您快速完成研发及采购。
我要提问

954668/400-830-1766(工作日 9:00-18:00)

service@sekorm.com

研发客服
商务客服
服务热线

联系我们

954668/400-830-1766(工作日 9:00-18:00)

service@sekorm.com

投诉与建议

E-mail:claim@sekorm.com

商务合作

E-mail:contact@sekorm.com

收藏
收藏当前页面