聆思CSK6大模型语音视觉开发板接入AIUI技能实操(语音控制灯的开关)

本文主要是介绍聆思CSK6大模型语音视觉开发板接入AIUI技能实操(语音控制灯的开关),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文以大模型语音控制灯的开关为例,讲解如何通过LSPlatform的云端编排功能在大模型语音交互流程中加入AIUI技能,实现更丰富的产品功能。

大模型语音控灯

大模型语音模板加入AIUI技能节点后的数据流程如下图所示:

大模型语音接入AIUI实现灯控功能的云端配置

一.创建应用

登录LSplatform,创建新应用

创建成功后在弹出的界面进入应用编排服务

示例工程文件下载地址:大模型语音灯控.json

点击之后选择”导入节点文件”,导入下载的”大模型语音灯控.json“示例工程文件

二.示例工程讲解

流程分为主要两个部分,第一部分为进行语音交互,将用户的语音输入识别为文字后利用第一个提示词节点(分类提示词),将用户的语音命令进行意图分类。

第二部分是根据前面的意图识别结果进行多分支处理。画图(第一个分支)的分支是调用星火大模型的文生图功能生成图片。灯控(第二个分支)的分支是再次利用提示词(灯控提示词)调用星火大模型从用户的语音内容中提取关键的控制信息,如“打开/关闭灯光”控制GPIO高低电平来实现控制rgb灯的状态,最后一个分支是闲聊分支是用于完成语音的基本问答功能。

三.关键节点讲解

第一部分

第一部分主要讲解提示词语义改写落域结果判断部分

提示词(分类提示词)

按照提示词的一般设计原则,首先要对大模型进行角色设定(“你是一个分类专家”)。然后对其进行任务设定(“你需要将用户的句子归为“灯控”、“画画”、“闲聊”中的一类”)。接下来就是给大模型一些例子进行学习理解以提高分类的准确性。

语义改写

语义改写可以帮我们改写用户的问题,当有多轮提问的时候,使用语义改写可以将用户的多个问题改写成一个完整的问题,提高流程的处理效果。

当判断到有历史对话时,语义改写节点会整合用户的多个问题为一个完整问题,再传到提示词节点进行分类。

当判断到没有历史对话时,直接会传到提示词节点进行分类。

落域结果判断

这里有三个落域,分别是画画灯控闲聊三个落域,它会通过前面的分类提示词来判断是哪个落域,每个落域对应不同的分支,如要再增添落域,点击左下角”添加“即可

第二部分

前置处理函数、后置处理函数都是使用function节点来编写javascript代码,其主要作用

前置处理:主要用来提取上一个节点的输出参数转换或组装成下一个节点的输入参数

后置处理:主要用来提取上一个节点的输出参数生成语音播放内容以及NLP结果推送给端侧,会比前置处理单纯提取参数复杂一些。

第二部分我们只看第二条分支(灯控分支),前置处理与”闲聊”的前置处理相同,直接照抄即可。这里关键讲解“提示词”与“后置处理”节点

灯控提示词

风扇控制的提示词的作用是从用户的命令中提取关键信息(打开/关闭)来调整开关状态并响应rgb灯的十六进制值,打开即为“1”,关闭即为“0”,采用自然语言处理(NLP)比采用通配符匹配有更好的识别效果

灯控后置处理节点

它的作用是接收和解析用户的自然语言指令,根据解析结果构建一个意图模板,如果成功匹配指令,则生成成功的语音提示和控制指令消息发送给端侧设备;如果未匹配到指令,则生成失败或异常的语音提示消息,仅发送语音播报而没有控制指令。

聆思CSK6大模型开发板端侧新增灯控意图配置

准备工作

部署开发环境以及SDK工程拉取到本地目录,可以参考聆思文档中心环境搭建 | 聆思文档中心获取大模型套件SDK | 聆思文档中心

SDK下载完成后,通过VScode打开LLM-pic示例模板 D:\LISTENAI\duomotai_ap\apps\LLM-pic)根据自己的SDK保存路径打开

然后打开LLM-pic目录下的src\app_chat\app_music_ctrl.c文件

代码修改

我们需要修改的有三个部分

  1. 新增头文件
    #include <zephyr/drivers/gpio.h>

          新增宏定义

#define LED_G_NODE DT_ALIAS(led_rgb_green)static const struct gpio_dt_spec led_g = GPIO_DT_SPEC_GET(LED_G_NODE, gpios);

  1. 定义led_ret变量

 int led_ret;app_chat_evt_msg_t msg;if (!gpio_is_ready_dt(&led_g)) {return 0;}led_ret = gpio_pin_configure_dt(&led_g, GPIO_OUTPUT_ACTIVE);if (led_ret < 0) {return 0;}LOG_INF("Mumu------app_player_ctrl_thread");

  1. 新增灯控的控制意图
    } else if (!strcmp(aiui_ctrl_strings, "1")) { // 开灯LOG_INF("Open LED!");led_ret = gpio_pin_set_dt(&led_g,1);} else if (!strcmp(aiui_ctrl_strings, "0")) { // 关灯LOG_INF("Close LED!");  led_ret = gpio_pin_set_dt(&led_g,0);

至此,端侧部分配置完成

编译与烧录

  1. 打开 windows powershell/cmd

2、在LISTENAI\duomotai_ap路径下输入,开始编译固件

lisa zep build -b csk6_duomotai_devkit apps\LLM-pic -p

3、固件编译成功之后,输入进行烧录

lisa zep exec cskburn -s \\.\COM串口号 -C 6 -b 1500000 0x000000 --verify-all .\build\zephyr\zephyr.bin

开发板对接LSPlatform云端应用绑定

一.创建产品

产品管理模块点击新建产品按钮,并按要求填写你的产品名称。

二.云端应用和云端产品信息绑定

配置刚才创建的应用,完成配置后,用户即可体验大模型语音控制rgb灯。在此我们仅需在配置应用勾对文章第一步创建的应用(大模型灯控)即可。

三.云端应用设备列表加入硬件设备ID

读取设备id

设备ID是一个产品下的唯一设备标识,我们需要获取当前设备ID方便后续在云端配置,才能让设备鉴权通过实现端云交互。

读取方式:

cskburn desktop是一款聆思推出的桌面烧录工具,下载地址(cskburn桌面烧录工具 | 聆思文档中心)打开软件后

1.点击串口下拉框,选择连接开发套件后识别到的串口编号;

2.点击获取信息

3.得到设备ID

加入设备列表

聆思平台只会对列表中的设备鉴权提供交互服务,因此需要将前面读取到的设备ID在设备管理页面进行导入才能实现设备正常交互。

四.CSK6开发板设备端写入云端产品服务配置

云端配置设备id后,还需将产品ID写入开发板固件中,才能让设备在运行时找到正确的云端产品服务完进行鉴权,鉴权完成就可以进行大模型语音交互了

写入方式:

使用数据线连接开发板 DAP_USB 接口后,打开聆思在线串口终端,选择对应的串口设 备进行连接,波特率默认115200,完成配置后点击连接按钮。

通过 set product_id set secret_id指令可以分别配置开发板接入的大模型应用 product ID 及其密钥,示例如下:

set product_id 71cd1721-xxx-xxx-xxx-1000055c8b2f

set secret_id cb09013f-xxx-xxx-xxx-e212b32f9218

product_idproduct_secret 可在对应产品的产品信息中获取,请将指令中的参数替换为产品信息中的 id 与 secret 信息。

至此,所有配置均以完成。本文使用的聆思CSK6大模型开发板,详细信息可参考线上文档套件简介 | 聆思文档中心

这篇关于聆思CSK6大模型语音视觉开发板接入AIUI技能实操(语音控制灯的开关)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1093647

相关文章

Spring Security 基于表达式的权限控制

前言 spring security 3.0已经可以使用spring el表达式来控制授权,允许在表达式中使用复杂的布尔逻辑来控制访问的权限。 常见的表达式 Spring Security可用表达式对象的基类是SecurityExpressionRoot。 表达式描述hasRole([role])用户拥有制定的角色时返回true (Spring security默认会带有ROLE_前缀),去

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言