智能客服小讲堂丨客服机器人如何练就巧舌慧耳?

2023-11-03 07:10

本文主要是介绍智能客服小讲堂丨客服机器人如何练就巧舌慧耳?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

用户与智能客服对话流畅,满意度高

智能客服机器人发展到今天,已经能做到与人交互自如,不仅可以听懂客户诉求,还能像人一样发声交流。那么,智能客服机器人是如何做到“以假乱真”的?

除了上期小讲堂介绍的领先的对话能力(戳这里复习→解密为什么机器人客服能做到秒回?),即机器人有理解语义并生成自然语言回复的“大脑”外,还需要机器人有“耳朵”和“嘴巴”接收和传达信息。今天的智能客服小讲堂就给大家科普下,智能客服机器人的巧舌慧耳是如何练成的。

三大技术加持

人机对话更自然

人类最自然的交互是通过耳朵去接收信息,通过嘴巴说出诉求,它们分别对应智能客服交互中最基础的两种技术:语音识别(Automatic Speech Recognition)和语音合成(Text To Speech)。

 

同时,人和人非面对面交流时,可通过声音大概判断对方身份,这与客服系统中的声纹识别技术(Voiceprint Recognition)相对应。

 

在智能客服的应用中

人机交互的过程大致可描述为:用户与机器人进行语音对话,机器首先收集语音信息并识别对方的语音内容与身份信息,经过“中枢大脑”,即对话系统处理生成对应回复文本后,再由语音合成技术转化为声音传递给用户。

语音识别技术(ASR)

识别人说的是什么

语音识别是一种将语音转换为文本的技术。

 

在这里可以简单地将语音识别比做“机器的听觉系统”,它就是一种让机器通过识别和理解,然后把语音信号转变为相应的文本或命令的技术。语音识别与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连,是一个多学科交叉的领域。

 

那么,机器到底如何识别人说的是什么呢?

首先,机器会对人的大段声音进行录入,语音经过“分帧”被分为若干小段,然后机器将每个小段中的发音特征提取出来,并将发音特征相同的音素归为一类,这部分需要用到事先训练好的声学模型。

 

分类后的音素如何对应到具体文字?

这就要应用到语言模型。语言模型中收录了不同语言的发音特点和语言表达特点,计算机通过与已有数据库比对即可实现语音识别。而其识别准确率与语言模型和声学模型息息相关,因为中文中同音不同字的情况很多,比如音素“ma” 就可以对应“妈”、“嘛”、“马”、“骂”等多个文字,在机器识别到“ma”后,需要经过大量语料训练的声学模型和语言模型来判别确认,才能保证语音识别的准确率。

 

百度智能云智能客服依托百度语音识别技术为企业提供语音门户的客户服务,是智能客服与用户交互的首要窗口。

 

百度智能云语音识别技术采用业界首次成功应用的流式多级截断注意力模型(SMLTA),并且在LSTM和CTC的基础上引入了注意力机制,进而获取更大范围和更有层次的上下文信息,识别准确率高达97%。

 

百度智能云语音识别模型具备四大创新点:

  • 截断、流式、多级、基于CTC&Attention实现高精度、低功耗,线上应用相对准确率提升15%,且针对离线语音文件识别由同一个ASR引擎的不同接口支持,无需采购两个ASR引擎;

  • 在算法工程上,支持8k与16k模型混合部署在一个集群,统一对外接口服务,同时支持IVR与Mobile app语音应用,是低延迟、高并发的企业级语音服务;

  • 采用高可用流式传输语音识别与语音合成协议,实现全双工流式交互;

  • 定制化训练方面,允许私有化部署语言模型训练平台,并且可以由甲方自行根据新词、热词、专属名词需要定制训练,全面支持热词、语句、语篇三种优化训练。

语音合成技术(TTS)

让机器发声更像真人

语音合成技术像是一种逆向的语音识别技术,它作为智能客服的“嘴巴”,会将整个经过智能客服的“耳朵”、“大脑”等技术处理的文本,用合成音这个“嘴巴”输出。

 

因此,小白客户评判一款智能客服产品好坏的标准就是合成音听起来像不像人,这也是直达普通用户的客服信息载体。

此外,机器“朗读”有不同方式。

 

第一种是串联合成方法,即需要事先通过大量的语音录音训练,机器从中提取基本单元,对应相应的文本将基础单元拼凑起来。

 

第二种是基于参数的语音合成,即根据文本对应的声学特征的统计模型来预测基频、共振峰频率等相关语音参数,然后把参数转化为波形。为提高机器发声的拟人度,语音合成还引入了神经网络进行机器学习,模仿人发声的音长、韵律、重音等特征,让机器发声更像真人。

 

需要注意的是,合成音的好坏评价具有主观性,因此,语音合成算法拟人度评测需要投入大量人力去做MOS评测或者AB test。由于其本质还是深度学习算法,发声声优的有效数据覆盖面越广,数据量越大效果越好。而好的合成音会让用户在发音韵律、发音停顿上都有上佳感受,至于音色和语调等则与声优本身发声特点,或者录制时情感特征关联密切。

 

2013年4月,百度智能云开始对语音合成进行研究。从在线合成发布,hts的离线参数合成,到形成DNN的参数合成系统,EMPHASIS声学建模,以及现在Tacotron+wavRNN的联合训练模式,百度智能云技术效果显著,逐渐形成了端对端的深度学习解决方案。

 

目前,百度智能云可提供多种客服女声合成音,支持客户对语速、语调、音色进行自定义修改,且具备低延时、高并发优势。

声纹识别技术(VPR)

精准判断电方身份

智能客服是名副其实的“顺风耳”,也就是说,机器可以通过来电方的声纹判断或验证对方的身份。

 

这就衍伸出了声纹识别技术的概念。具体来讲,声纹识别是生物识别技术的一种,即把声信号转换成电信号,再用计算机进行识别。

 

众所周知,每个人的声音都具有独特性,因此每人都独有“声音名片”。这是因为人在讲话时使用的发声器官都是独特的,它们的构造千差万别,这就造成了不同人的语音的物理属性(音质、音长、音高、音强)是不同的。而声纹技术的核心就是将说话人的声音进行向量化、特征化,以取得其核心特征。声音特征的差异最终表现为语音图谱上参数的差异,然后声纹技术就可以根据特征参数,确定是否为同一人。

而且,任务和应用不同,使用的声纹技术也不同。

目前,百度智能云的声纹技术主要包括

1:1核验(文本无关/文本相关)

1:N比对(文本无关/文本相关)

N:N声纹聚类

话者分离

性别识别

简单举几个例子,外呼中可以利用声纹核验技术核验被呼叫人身份;在离线转写存量音频时,用话者分离技术区分客服或客户身份;通过1:N检索判断黑产用户,协助银行构建信用卡申请人黑名单;通过声纹和识别技术,对摘机前振铃识别进行分析,区别欠费、停机、无人接听等电话状态,避免客服人员一直耗时耗力听完之后再判断业务码等。

AI技术驱动

持续优化用户体验

百度智能客服语音技术涵盖语音识别、语音合成、声纹识别三大技术,构成了智能客服机器人与客户交互交流的重要桥梁,也是智能化最重要的基础能力之一。

 

在经过百度智能云工程化封装后,以上各能力都可以以私有云或公有云PaaS等多种形式呈现,而且整体性更强,优化速度更快,输出渠道更加多元化。

(智能语音呼叫中心整体解决方案)

 

面向未来,百度智能云智能客服将持续以强有力的基础技术为引擎,在不断优化用户体验的同时,打造领先的客户服务联络中心,助力企业智能化转型。

这篇关于智能客服小讲堂丨客服机器人如何练就巧舌慧耳?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/336484

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

智能交通(二)——Spinger特刊推荐

特刊征稿 01  期刊名称: Autonomous Intelligent Systems  特刊名称: Understanding the Policy Shift  with the Digital Twins in Smart  Transportation and Mobility 截止时间: 开放提交:2024年1月20日 提交截止日

基于 YOLOv5 的积水检测系统:打造高效智能的智慧城市应用

在城市发展中,积水问题日益严重,特别是在大雨过后,积水往往会影响交通甚至威胁人们的安全。通过现代计算机视觉技术,我们能够智能化地检测和识别积水区域,减少潜在危险。本文将介绍如何使用 YOLOv5 和 PyQt5 搭建一个积水检测系统,结合深度学习和直观的图形界面,为用户提供高效的解决方案。 源码地址: PyQt5+YoloV5 实现积水检测系统 预览: 项目背景

【C++学习笔记 20】C++中的智能指针

智能指针的功能 在上一篇笔记提到了在栈和堆上创建变量的区别,使用new关键字创建变量时,需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时,不必自己去调用delete,甚至不用调用new。 智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针,是一种作用域指针,意思是当指针超出该作用域时,会自动调用delete。它名为unique的原因是这个

单片机毕业设计基于单片机的智能门禁系统的设计与实现

文章目录 前言资料获取设计介绍功能介绍程序代码部分参考 设计清单具体实现截图参考文献设计获取 前言 💗博主介绍:✌全网粉丝10W+,CSDN特邀作者、博客专家、CSDN新星计划导师,一名热衷于单片机技术探索与分享的博主、专注于 精通51/STM32/MSP430/AVR等单片机设计 主要对象是咱们电子相关专业的大学生,希望您们都共创辉煌!✌💗 👇🏻 精彩专栏 推荐订

基于树梅派的视频监控机器人Verybot

最近这段时间做了一个基于树梅派 ( raspberry pi ) 的视频监控机器人平台 Verybot ,现在打算把这个机器人的一些图片、视频、设计思路进行公开,并且希望跟大家一起研究相关的各种问题,下面是两张机器人的照片:         图片1:                   图片2                    这个平台的基本组成是:

【C++】作用域指针、智能指针、共享指针、弱指针

十、智能指针、共享指针 从上篇文章 【C++】如何用C++创建对象,理解作用域、堆栈、内存分配-CSDN博客 中我们知道,你的对象是创建在栈上还是在堆上,最大的区别就是对象的作用域不一样。所以在C++中,一旦程序进入另外一个作用域,那其他作用域的对象就自动销毁了。这种机制有好有坏。我们可以利用这个机制,比如可以自动化我们的代码,像智能指针、作用域锁(scoped_lock)等都是利用了这种机制。

什么是LED智能会议一体机?COB超微小间距LED会议一体机大势所趋

LED智能会议一体机,作为现代会议室革新的核心装备,正逐步颠覆传统会议模式的界限。它不仅仅是一台集成了高清显示、触控互动、音视频处理及远程协作等功能于一体的智能设备,更是推动会议效率与体验双重飞跃的关键力量。随着技术的不断进步,特别是COB(Chip On Board)超微小间距LED技术的引入,LED智能会议一体机正迎来前所未有的发展机遇,成为大势所趋。 COB技术通过将LED芯片直接封装在基