基于旭日X3派的手语翻译系统案例
(一)个人介绍
蔡振鑫,地平线开发者社区优秀开发者,惠州学院大三学生,曾获2022年大学生电子设计大赛广东赛区二等奖,十分热爱嵌入式视觉,熟悉micopython的开发应用,arduino框架的开发应用,Python的标准库的使用以及PyTorch库的应用,OpenCV库的C++和Python接口的开发应用。
(二)硬件准备
硬件部分:旭日X3派,USB免驱摄像头,电源适配器,烧录Ubuntu系统的SD卡,USB扬声器,显示屏(或者VNC/SSH远程连接)
软件部分:Thonny IDE集成开发环境
注意:购买麦克风时要购买二合一的USB麦克风,切勿购买3.5mm耳机接口传输的麦克风。
(三)实现原理
本项目主要就是利用python程序录制本地mp3格式的用户音频,并将音频上传到云端语音平台进行实时转写,最后利用GUI库在屏幕上展示转写结果。
(四)效果展示
结果显示,本项目对本地资源占用较小,得益于旭日X3派的高算力和高性能,温度的控制让人十分满意(和上一个项目手语翻译终端同时运行也没有问题)。
(五)性能测试
系统测试方案:将程序导入旭日X3派中,接入电源后等待初始化完成,在安静的室内环境下,在麦克风前分别测试普通话,英语,方言(东北话/四川话),将转写终端实时转写的准确率记录,同时将识别的总时长记录收集。
测试数据如下:
结果分析:接收到语音信息后到完成转写结果的显示总时长在0.5秒之内,可基本实现实时转译,对普通话和英文以及51种外语,24种方言和1种民族语言的识别率在95%以上。
结论:实现语音转写除了支持普通话和英语外,支持51个外国语种(包括日语、俄语、泰语、捷克语等常用语种)、24种方言(包括四川话、广东话、河南话、上海话,闽南语等常用方言),另外,还支持一种民族语言(彝语),真正做到无障碍沟通交流。
- |
- +1 赞 0
- 收藏
- 评论 0
本文由雪飘梦飞转载自D-Robotics官网,原文标题为:手语翻译系统,本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
相关推荐
使用旭日X3派控制大型六足蜘蛛应用实例
本文为大型六足蜘蛛机器人设计方案介绍。经过测试,地平线旭日X3派机器运行效果和JETSON TX1一样顺滑!5Tops端侧推理与4核ARM A53处理能力,可同时多路Camera Sensor的输入并支持H.264/H.265编解码。
设计经验 发布时间 : 2024-11-05
在RDK X5平台上实现Mobile SAM量化部署的分割示例
mono_mobilesam package是基于Mobile SAM量化部署的使用示例。图像数据来源于本地图片回灌和订阅到的image msg。SAM依赖检测框输入进行分割, 并分割检测框中的目标, 无需指定目标的类别信息, 仅需提供框。最终将算法信息通过话题发布, 同时在Web页面渲染可视化。应用场景为结合检测框进行障碍物分割、水渍区域分割等。
设计经验 发布时间 : 2024-11-04
使用旭日X3派进行运动控制的手势控制X Car小车应用示例
本方案为使用旭日X3派进行运动控制实现的手势控制X Car小车设计。
设计经验 发布时间 : 2024-11-09
基于RDK系统的双目深度估计算法示例
双目深度估计算法是使用地平线OpenExplorer在SceneFlow数据集上训练出来的StereoNet模型。算法输入为双目图像数据,分别是左右视图。算法输出为左视图的视差。此示例使用mipi双目相机作为图像数据输入源,利用BPU进行算法推理,发布包含双目图像左图和感知结果的话题消息, 在PC端rviz2上渲染算法结果。
设计经验 发布时间 : 2024-11-05
RDK X5平台上CLIP文本图片特征检索应用示例
文本图片特征检索功能介绍CLIP是由OpenAI提出的一种多模态机器学习模型。该模型通过对大规模图像和文本对进行对比学习, 能够同时处理图像和文本, 并将它们映射到一个共享的向量空间中。本示例展示在RDK平台上利用CLIP进行图片管理与文本搜图的功能。
设计经验 发布时间 : 2024-11-05
人形机器人物体抓取实例
介绍人形机器人物体抓取的设计方案及应用特点。
设计经验 发布时间 : 2024-10-30
基于地平线旭日X3派平台开发的具身智能机器狗“汪汪”
本项目聚焦腿臂机器人在多模态环境感知、自然语言交互和自主行为控制方面的技术瓶颈,基于地平线旭日X3派平台进行AI大模型算法开发,提出了一种融合AI大模型的创新性解决方案,提升腿臂机器人的综合性能。
应用方案 发布时间 : 2024-10-30
【IC】D-Robotics RDK X5机器人开发者套件,可提供高达10 Tops算力,加速智能化应用快速落地
D-Robotics RDK X5搭载Sunrise 5智能计算芯片,可提供高达10 Tops的算力,是一款面向智能计算与机器人应用的全能开发套件,接口丰富,极致易用,支持Transfomer、RWKV、Occupancy、Stereo Perception等多种复杂模型和最新算法,加速智能化应用快速落地。
产品 发布时间 : 2024-09-20
深入探讨地平线X5图像多媒体框架技术细节
文章详细介绍了D-Robotics X5图像多媒体框架,从X5图像多媒体框图、各模块总体性能、多媒体调试指南和API接口介绍等多方面进行介绍。
技术探讨 发布时间 : 2024-09-20
D-Robotics 人形机器人自动踢球控制
本文介绍了人形机器人自动踢球控制的设计方案及应用。该功能包通过接收物体识别节点的消息,控制机器人自动踢球。
设计经验 发布时间 : 2024-11-23
D-Robotics YOLO World开放词汇目标检测
YOLO-World是一种先进的开放词汇目标检测方法,根据输入文本的变化可以实现以零样本的方式高效检测出不同的全新类别目标。应用场景:YOLO-World强大的零样本检测能力使得其具有更强的泛化能力,可以应用在智能驾驶、智能家居、地质检测等领域。
设计经验 发布时间 : 2024-11-23
电子商城
登录 | 立即注册
提交评论