展品讲解语音对话系统 实验报告

2023-11-02 11:59

本文主要是介绍展品讲解语音对话系统 实验报告,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

展品讲解语音对话系统 实验报告

  • 1. 任务定义
  • 2. 实验环境
  • 3. 系统功能
  • 4. 方法说明
    • 4.1 本地录音
      • 4.1.1 初始化
      • 4.1.2 录音
      • 4.1.3 保存音频
    • 4.2 百度语音识别
      • 4.2.1 初始化
      • 4.2.2 语音识别
    • 4.3 图灵机器人回答
      • 4.3.1 在图灵机器人平台新增语料库
      • 4.3.2 初始化
      • 4.3.3 获得回复
    • 4.4 处理回答内容并语音回答
  • 5. 演示视频及源码

1. 任务定义

  • 搭建以展品讲解为主要内容的语音对话系统
    1. 展品导览:通过对话,确认用户感兴趣的展品(假设展品为展馆内所展示的物品或图、画),以及导引用户参观其余展品。
    2. 展品讲解:通过对话,介绍展品。能够回答用户关于展品的n>1个提问。
    3. 闲聊:打招呼、再见、自我介绍等。
  • 实现方法不限

2. 实验环境

  • Windows 10
  • python 3.7.8
  • 图灵机器人
  • 百度语音识别

3. 系统功能

  • 机器人自我介绍
  • 打招呼和再见
  • 画展概况介绍
  • 指定展品编号进行介绍
  • 指定作者介绍其展品
  • 介绍展品作者信息
  • 介绍剩余展品内容
  • 部分闲聊

4. 方法说明

4.1 本地录音

4.1.1 初始化

framerate = 16000       # 采样率
num_samples = 2000      # 采样点
channels  = 1           # 声道
sampwidth = 2           # 采样宽度2bytes
FILEPATH  = 'speech.wav'

4.1.2 录音

  • 调用PyAudio库进行录音,recordTime为录音时长,默认为4秒
def my_record(recordTime=4):pa = PyAudio()# 打开一个新的音频streamstream = pa.open(format=paInt16, channels=channels,rate=framerate, input=True, frames_per_buffer=num_samples)# 存放录音数据my_buf = [] t = time.time()print('正在录音...')while time.time() < t + recordTime:  # 设置录音时间(秒)# 循环read,每次read 2000framesstring_audio_data = stream.read(num_samples)my_buf.append(string_audio_data)print('录音结束.')save_wave_file(FILEPATH, my_buf)stream.close()

4.1.3 保存音频

filepath:保存音频路径
data:音频内容

def save_wave_file(filepath, data):wf = wave.open(filepath, 'wb')wf.setnchannels(channels)wf.setsampwidth(sampwidth)wf.setframerate(framerate)wf.writeframes(b''.join(data))wf.close()

4.2 百度语音识别

4.2.1 初始化

# 百度语音识别的APIKey和SecretKey
base_url = "https://openapi.baidu.com/oauth/2.0/token?grant_type=client_credentials&client_id=%s&client_secret=%s"
APIKey = "***************"
SecretKey = "*****************"HOST = base_url % (APIKey, SecretKey)

4.2.2 语音识别

  • 获取音频内容
  • file:音频文件路径
def get_audio(file):with open(file, 'rb') as f:data = f.read()return data
  • 获取token信息
def getToken(host):res = requests.post(host)return res.json()['access_token']
  • 将音频内容上传到百度语音识别系统并获取结果
  • speech_data:音频内容
  • token:token信息
  • dev_pid:百度语音识别提供的几种语言选择,1537为普通话
# 传入语音二进制数据,token
# dev_pid为百度语音识别提供的几种语言选择
def speech2text(speech_data, token, dev_pid=1537):FORMAT = 'wav'RATE = '16000'CHANNEL = 1CUID = '********'SPEECH = base64.b64encode(speech_data).decode('utf-8')data = {'format': FORMAT,'rate': RATE,'channel': CHANNEL,'cuid': CUID,'len': len(speech_data),'speech': SPEECH,'token': token,'dev_pid':dev_pid}url = 'https://vop.baidu.com/server_api'headers = {'Content-Type': 'application/json'}# r=requests.post(url,data=json.dumps(data),headers=headers)print('正在识别...')r = requests.post(url, json=data, headers=headers)Result = r.json()if 'result' in Result:return Result['result'][0]else:return Result

4.3 图灵机器人回答

4.3.1 在图灵机器人平台新增语料库

在这里插入图片描述

4.3.2 初始化

# 图灵机器人的API_KEY、API_URL
turing_api_key = "********************"
api_url = "http://openapi.tuling123.com/openapi/api/v2"
headers = {'Content-Type': 'application/json;charset=UTF-8'}

4.3.3 获得回复

  • 将问题上传到图灵机器人系统获得回复
  • text_words:问题文本内容
  • result:图灵机器人的回答
# 图灵机器人回复
def Turing(text_words=""):req = {"reqType": 0,"perception": {"inputText": {"text": text_words},"selfInfo": {"location": {"city": "北京","province": "北京","street": "北京邮电大学西土城校区"}}},"userInfo": {"apiKey": '**************',"userId": "GZR"}}req["perception"]["inputText"]["text"] = text_words# 获得回复response = requests.request("post", api_url, json=req, headers=headers)response_dict = json.loads(response.text)# 提取回复内容result = response_dict["results"][0]["values"]["text"]print("NAO Robot said: " + result)return result

4.4 处理回答内容并语音回答

  • 处理图灵机器人的回答内容并进行语音回复
  • response:图灵机器人的回答
  • engine:语音引擎
  • allPaints:剩余尚未介绍展品
def answer(response, engine, allPaints):# 如果不需要全部介绍if response != '全部':temp = response[1]engine.say(response)engine.runAndWait()# 判断是否是介绍一幅展品,如果是则将其从剩余未介绍展品中剔除并介绍,否则正常回复if temp in allPaints:allPaints.remove(temp)temp = ""for i in allPaints:temp += itemp += '、'print("这里还剩下" + temp + "号画,请问需要继续介绍哪一幅画?")engine.say("这里还剩下" + temp + "号画,请问需要继续介绍哪一幅画?")engine.runAndWait()# 介绍全部剩余展品else:engine.say("那我就开始啦!")engine.runAndWait()for i in range(len(allPaints)):result = "介绍一下第{}幅画".format(allPaints[i])response = Turing(result)engine.say(response)engine.runAndWait()# 剩余展品清空allPaints = []

5. 演示视频及源码

  • 见附件

这篇关于展品讲解语音对话系统 实验报告的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/330445

相关文章

Python FastAPI+Celery+RabbitMQ实现分布式图片水印处理系统

《PythonFastAPI+Celery+RabbitMQ实现分布式图片水印处理系统》这篇文章主要为大家详细介绍了PythonFastAPI如何结合Celery以及RabbitMQ实现简单的分布式... 实现思路FastAPI 服务器Celery 任务队列RabbitMQ 作为消息代理定时任务处理完整

Linux系统中卸载与安装JDK的详细教程

《Linux系统中卸载与安装JDK的详细教程》本文详细介绍了如何在Linux系统中通过Xshell和Xftp工具连接与传输文件,然后进行JDK的安装与卸载,安装步骤包括连接Linux、传输JDK安装包... 目录1、卸载1.1 linux删除自带的JDK1.2 Linux上卸载自己安装的JDK2、安装2.1

C# WinForms存储过程操作数据库的实例讲解

《C#WinForms存储过程操作数据库的实例讲解》:本文主要介绍C#WinForms存储过程操作数据库的实例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、存储过程基础二、C# 调用流程1. 数据库连接配置2. 执行存储过程(增删改)3. 查询数据三、事务处

使用Python实现文本转语音(TTS)并播放音频

《使用Python实现文本转语音(TTS)并播放音频》在开发涉及语音交互或需要语音提示的应用时,文本转语音(TTS)技术是一个非常实用的工具,下面我们来看看如何使用gTTS和playsound库将文本... 目录什么是 gTTS 和 playsound安装依赖库实现步骤 1. 导入库2. 定义文本和语言 3

Linux系统之主机网络配置方式

《Linux系统之主机网络配置方式》:本文主要介绍Linux系统之主机网络配置方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、查看主机的网络参数1、查看主机名2、查看IP地址3、查看网关4、查看DNS二、配置网卡1、修改网卡配置文件2、nmcli工具【通用

Linux系统之dns域名解析全过程

《Linux系统之dns域名解析全过程》:本文主要介绍Linux系统之dns域名解析全过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、dns域名解析介绍1、DNS核心概念1.1 区域 zone1.2 记录 record二、DNS服务的配置1、正向解析的配置

Linux系统中配置静态IP地址的详细步骤

《Linux系统中配置静态IP地址的详细步骤》本文详细介绍了在Linux系统中配置静态IP地址的五个步骤,包括打开终端、编辑网络配置文件、配置IP地址、保存并重启网络服务,这对于系统管理员和新手都极具... 目录步骤一:打开终端步骤二:编辑网络配置文件步骤三:配置静态IP地址步骤四:保存并关闭文件步骤五:重

C++快速排序超详细讲解

《C++快速排序超详细讲解》快速排序是一种高效的排序算法,通过分治法将数组划分为两部分,递归排序,直到整个数组有序,通过代码解析和示例,详细解释了快速排序的工作原理和实现过程,需要的朋友可以参考下... 目录一、快速排序原理二、快速排序标准代码三、代码解析四、使用while循环的快速排序1.代码代码1.由快

Windows系统下如何查找JDK的安装路径

《Windows系统下如何查找JDK的安装路径》:本文主要介绍Windows系统下如何查找JDK的安装路径,文中介绍了三种方法,分别是通过命令行检查、使用verbose选项查找jre目录、以及查看... 目录一、确认是否安装了JDK二、查找路径三、另外一种方式如果很久之前安装了JDK,或者在别人的电脑上,想

讯飞webapi语音识别接口调用示例代码(python)

《讯飞webapi语音识别接口调用示例代码(python)》:本文主要介绍如何使用Python3调用讯飞WebAPI语音识别接口,重点解决了在处理语音识别结果时判断是否为最后一帧的问题,通过运行代... 目录前言一、环境二、引入库三、代码实例四、运行结果五、总结前言基于python3 讯飞webAPI语音