惹怒程序员的下场!阿里达摩院大神难忍骚扰电话,打造“二哈”AI

本文主要是介绍惹怒程序员的下场!阿里达摩院大神难忍骚扰电话,打造“二哈”AI,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

不要惹怒程序员。不要惹怒程序员。不要惹怒程序员。

即便你是一年呼出 40 亿次的机器人骚扰电话。

在 3.15 晚会曝光机器人拨打骚扰电话黑色产业链后,大众震惊,舆论哗然,AI 从业者痛心。

没想到最前沿的 AI 技术,正被别有用心企业引向黑暗面。

但数小时后,阿里就宣布推出防骚扰电话 AI 技术,称机器人的问题交给机器人对付。

在放出的视频 Demo 中,阿里 AI 实验室推出防骚扰电话 AI,并且在一段完整推销电话中,人类女推销员一方,全程毫无察觉……

其后,阿里还在支付宝小程序和天猫精灵 App 推出开放体验,反馈也不错。

当然,聂再清也未曾料到,自己的业余项目,就这样受到如此空前的关注。

这位阿里巴巴 AI 实验室语音助手首席科学家、阿里 AI 北京研发中心负责人,前微软亚洲研究院首席研究员解释项目初衷时说:

经常收到骚扰电话实在太烦了,而且团队开会,经常被各种电话骚扰、打断,以致会都没法儿开,于是就想——能不能用技术的方式解决一下。

于是,阿里防骚扰电话 AI“二哈”就此诞生。

让机器对付机器

在阿里 AI 实验室内部,“二哈”是这个智能防骚扰电话技术的项目代号。

当用户在手机上开通了这项服务,在接到骚扰来电时,用户可以直接转接给机器人接听。

阿里还放出演示视频,展示“二哈”的工作状态。

当一名推销贷款的女推销员接入电话后,1 分钟时间内,“二哈”不但对答如流,甚至化被动为主动,向这她咨询“北京能不能贷款?”“最多能贷多少钱?”

甚至还在对话中“调戏”道:“你之前给我打过电话吧,听起来挺耳熟的?”全程中女推销员丝毫没有察觉到与自己通话的是一个机器人。

最后,“二哈”AI 还被女推销员索要“微信号”。

视频一出,微博上就炸了锅。

有吃惊的,“不看标题根本不会知道有机器人。”

有提出小建议,搞“机机大战”的:

还有来自 AI 学者的评价,比如清华大学刘知远就说,不仅防骚扰,还能变相收集数据集,点赞了该技术应用。

另外,阿里 AI 实验室旗下的“天猫精灵”还表示,这是一个已经通过了很多人的“图灵测试”的机器人,现在就可以打开天猫精灵 App 或支付宝搜索天猫精灵调戏“二哈”了。

总之,AI 的问题,正在由 AI 解决。

技术原理:智能聊天

阿里 AI 北京研发中心负责人聂再清博士解释,“二哈”背后,主要使用了智能聊天技术。

所谓“智能聊天”,需要理解用户请求,同时用强大的知识图谱制作聊天的知识点,通过跟用户对话,把知识图谱里的知识灌输给用户,同时也引导用户反馈。

该过程中,AI 跟用户聊的越多越好,AI 会学到很多知识,用户聊完以后也会“教学相长”并慢慢把 AI 当朋友。

更具体来说,智能聊天是用深度强化学习来学习对话策略的,因为不是精度要求非常高的任务完成。

所以就算 AI 聊错一点,没有多大的关系,用户只是会对这个回复不太高兴(不像任务完成时需要 100% 准确完成主人的任务)。

通过强化学习,下次对话策略算法就可能更好地知道,到底应该怎么和这类用户聊天。

如果从垂直技术应用划分,过程中交叉使用了语音识别、NLP、知识图谱,以及语音合成(TTS)等技术。

  聂再清解释:

首先用到了语音识别技术把用户的语音转成文字。

接着自然语言理解技术,把来电者的意图和具体的槽值抽取出来。

紧接着对应到一个精准的知识图谱上面去,这样“二哈”就能把用户输入和现实世界的人与物联系起来。

然后,基于对用户当前输入的理解以及历史交互的上下文信息,“二哈”需要决定下一句应该是回答来电者的一个问题还是给来电者提一个问题。

最后,二哈还需要用的语音合作技术(TTS)把文字变成人声。

但听起来章法清晰、步骤明确,要真正做到真假难辨却不容易。

如何做到真假难辨?

聂再清认为核心要做到以下 3 大方面:

第一,接住用户的每一句话。

因为用户的输入空间非常大,要理解和聪明的回复来电者的每一句话很有难度。

对于一些不是“二哈”知识领域的问题,阿里 AI 目前采用了闲聊(ChitChat)的技术,从互联网上公开的人类对话库中来找到最适合回复,这是一种基于 information retrieval 思路来找到排名最高的相关回复。

目标是让来电者看不出“二哈”可能的知识缺乏。

第二,主动提出一个相关问题。

这更多是一个对话策略学习的工作,需要让来电者知道“二哈”真能理解他们的话,并提出只有理解了对话上下文,才能提出的好问题。

一味被动接话,很容易被识破。

该项挑战非常大,聂再清在 2018 年 AAAI 上有一篇参与发表的论文(CoChat: Enabling Bot and Human Collaboration for Task Completion),核心就是提出一套聊天机器人对话策略学习框架,让“二哈”这样的聊天机器人在不同的场景下都可以持续学习。

包括监督学习、在线学习、和深度强化学习(使用 sentiment analysis 提供奖惩反馈信号)。不同的聊天机器人根据自己的场景要求可以选择使用不同的学习策略。

比方说有人工 worker 的客服领域就可以更多使用在线学习,“二哈”这样的机器人可以用监督学习启动,深度强化学习不断进步。

并且通过和人类不断对话,“二哈”AI 会通过深度强化学习越来越好地知道如何提问才能更好地达成他的目标。

最后,像真人一样的语音语调以及停顿。

如果推销广告的骚扰电话,通过声音判断初接电话的是个机器人,他们就不会继续聊下去了。

所以“二哈”在语音合成(TTS)方面做了很多工作。

阿里 AI 最新算法利用 Tacotron 加上基于神经网络的声码器算法,合成出极其逼真的人声,但遗憾的是还有很大比例情况不能通过图灵测试。

于是“二哈”现在采取了过渡性方案,把非常高频的回复借用真人录播。但毫无疑问,未来该方案会不断减少。

而且值得注意的是,“二哈”最初只是一个课余项目。

不要惹怒程序员

“二哈”研发初衷,实在是对日益普遍的骚扰电话很生气。

聂再清说,自己一直都是同一个电话号,于是泄露越来越严重,经常收到骚扰电话。

还影响到团队工作,会议进行中,同事们经常被各类电话打断导致会议终中断,于是开始思考着如何用技术的方式解决。

而且更可气的是,大量骚扰电话是机器自动拨出的,成本越来越低。

此外也算天时地利人和。

在阿里 AI 实验室,聂再清团队负责天猫精灵的算法,所以所有相关人才团队里都有:语音识别、NLP、知识图谱……全链条覆盖。

并且跟语音助手一致,智能对话的基础算法也都通用。

于是他们先以“课余”项目开始,兴趣驱动,参与的工程师都很开心,一方面是解气,另一方面也是知道背后带来的意义。

其后一切也进展飞快,最终在本月月初,开始向公司申报,并立项启动。

没想到在今年 3.15 晚会上,机器人骚扰电话引起如此大关注。

于是团队决定公开最新研发成果,“二哈”也正式从幕后走到台前。

一炮而红。

 

AI 电话秘书

但“二哈”就只是帮对付骚扰电话而已嘛?

不。

聂再清说,“二哈”的进一步的目标是成为每个人的 AI 电话秘书,除了帮主人应付骚扰电话,还可以在主人繁忙的时候询问来电的主要意图,也能帮主人预约议程。

而且相比之前人类的电话、议程为工作核心的秘书助理,“二哈”这样的 AI 电话秘书,可以利用个性化 TTS,模仿出跟主人声音极尽逼真的声音。

另外,这样的目标也并不是遥不可及的“憧憬”。

至少现在,利用“二哈”实现 AI 呼叫转移,已经不再是技术难题。

AI 可以在你不方便接电话时帮接听来电,并转换成文字向你“汇报”。

你愿意为这样的 AI 服务买单吗?

 

喜欢此篇文章或觉得这篇文章对你有帮助的读者可以点播关注或者转发,

关注小编即可获得小编精心准备的一份免费C语言学习课程!

直接来公众号:【速学C语言】领取哦!

这篇关于惹怒程序员的下场!阿里达摩院大神难忍骚扰电话,打造“二哈”AI的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/754358

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

AI行业应用(不定期更新)

ChatPDF 可以让你上传一个 PDF 文件,然后针对这个 PDF 进行小结和提问。你可以把各种各样你要研究的分析报告交给它,快速获取到想要知道的信息。https://www.chatpdf.com/

【北交大信息所AI-Max2】使用方法

BJTU信息所集群AI_MAX2使用方法 使用的前提是预约到相应的算力卡,拥有登录权限的账号密码,一般为导师组共用一个。 有浏览器、ssh工具就可以。 1.新建集群Terminal 浏览器登陆10.126.62.75 (如果是1集群把75改成66) 交互式开发 执行器选Terminal 密码随便设一个(需记住) 工作空间:私有数据、全部文件 加速器选GeForce_RTX_2080_Ti

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU