狗还是机器人?谁在屏幕后和你对话?新研究开发仿真面对面对话系统 | 一周AI最火论文

本文主要是介绍狗还是机器人?谁在屏幕后和你对话?新研究开发仿真面对面对话系统 | 一周AI最火论文,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大数据文摘专栏作品

作者:Christopher Dossman

编译:Jiaxu、Joey、云舟

呜啦啦啦啦啦啦啦大家好,拖更的AIScholar Weekly栏目又和大家见面啦!

AI ScholarWeekly是AI领域的学术专栏,致力于为你带来最新潮、最全面、最深度的AI学术概览,一网打尽每周AI学术的前沿资讯。

每周更新,做AI科研,每周从这一篇开始就够啦!

本周关键词:仿真、数据可视化、开源机器人平台


本周热门学术研究


基于深度神经网络的仿真面对面对话系统


近日,CloudMinds和北京航空航天大学的研究人员基于深度学习提出了一种新的仿真面对面对话系统。CloudMinds是一家在机器人和云服务领域的领军企业,致力于成为针对各种机器人模型需求的供应商。


该会话系统包括用于收听和说话的两个序列到序列模型以及基于虚拟代理合成器的生成性对抗网络(GAN)模型。


当虚拟代理与人通信时,语音音频和面部图像被输入到系统中。面部图像由面部解析模块处理,产生面部动作和姿势。然后将生成的信息传递到基于序列到序列的收听模型中。当虚拟代理在收听时,输出被馈送到合成器中以产生逼真的面部图像作为非语言反应。



语音识别模型将语音音频变换为文本,然后传递到会话模块中以生成响应语句,该响应语句被传递到文本到语音(TTS)模块以合成语音。响应语句被传递到序列到序列的说话模型,其输出也被输入到虚拟合成器中以产生逼真的面部图像,从而呼应语音内容。头像合成器则用于在整个对话期间收听和说话。


本文显著改进了传统的基于3D模型的成果。为了训练模型,研究人员收集了大约700个ESPN视频,其中包含来自YouTube的面对面对话场景。


与传统3D模型的生成结果相比,该模型所生成的面部图像更接近现实。毋庸置疑的是,在使得会话更加逼真自然的领域上,该系统还有很大的潜力可供挖掘,未来它还可用于实现个性化表情会话。


原文:

https://arxiv.org/abs/1908.07750


使用DISCo方法改进钙成像分析


本文中,德国海德堡大学跨学科科学计算中心(IWR)的研究人员介绍了DISCo方法,这是一种使用深度学习,实例分割和相关性研究的新方法,可用于钙成像分析中的细胞分割步骤。


 

DISCo将深度学习网络的优势与最先进的实例分割程序相结合,允许直接提取单元实例而无需任何复杂的后处理步骤。他们还以非常有效的方式利用钙成像视频的时间背景来计算像素之间的分段相关性。然后以摘要图像的形式将此时间信息与基于形状的信息相结合。


DISCo的最大优势在于能够结合相关性和图像特征,而不只依赖于其中一种方法。因此,DISCo可以通过在Neurofinder数据集上仅使用单个模型来使神经研究人员获得良好的整体性能。此外,当在几个数据集系列上训练单个网络时,研究人员能够超越在Neurofinder数据集上训练的所有其他方法。


原文:

https://arxiv.org/abs/1908.07957


用于科研教育的低成本开源机器人赛车平台


华盛顿大学保罗G.艾伦计算机科学与工程学院的研究人员最近介绍了MuSHR,即多代理的非完整赛车系统。MuSHR是一个低成本、开源的机器人赛车平台,致力于教育和研究,由MuSHR的个人机器人实验室开发,旨在促进机器人领域的公民化。作为一个低成本的平台,参与者可以通过说明,开源文档和动手教程参与其中。




赛车的硬件设计基于一系列现成的组件,这些组件可以从世界各地的线上和线下硬件商店中轻松地找到,而软件架构则是在个人机器人实验室中开发的。该平台为华盛顿大学的移动机器人课程开发了一套演示系统和许多宝贵的实践经验,是机器人平台开发的里程碑。


MuSHR的低成本开发模式和综合的文档记录是宝贵的机器人研究资源。该平台向学术研究实验室,机器人研究者及机器人爱好者等展示各种机器人研究项目提供了一个出色的测试平台。


MuSHR具有开源指令和教程带领用户完成硬件开发。文档托管在Github上,免费供一般公众下载使用。


代码:

https://github.com/prl-mushr

原文:

https://arxiv.org/abs/1908.08031


三维扫描与CAD对象的联合嵌入


近日,慕尼黑工业大学、斯坦福大学以及 Facebook 人工智能研究所共同提出了一种学习三维扫描和CAD之间的联合嵌入空间的技术。而在这两者中有很多联系紧密且十分相似的事物。这一学习方法基于一种全新的3D CNN 技术,通过学习联合嵌入空间中事物的相似性来实现嵌入。


  

为了学习一个扫描对象和CAD模型可以相互交织的共享空间,研究人员提出使用堆叠沙漏的方式将前景、背景与扫描对象分开,并将其转换为完整的类CAD表示,以此将它整合到共享嵌入空间中。这样操作得到的嵌入空间可以用于CAD模型检索。为了更好地完成这一任务,研究人员引入了一个全新数据集,其中包括了扫描CAD相似性注释。在这一数据集的帮助下,他们能够对CAD模型检索进行细粒度的评估,并对杂乱、嘈杂部分进行扫描。


这一新型学习方式比现有的CAD模型在实例检索上的准确率高出10% 以上。


因此,它在CAD模型检索方面的表现比原有模型更好。学习这样的联合扫描- CAD嵌入空间不仅为CAD模型检索提供了新的解决方案,也为这两个领域之间的知识映射提供了新的可能性。


当然,虽然这个技术在扫描与学习CAD对象空间方面非常有效,但它仍然有很多局限性——目前研究人员仅考虑了扫描和CAD对象领域中对象的几何形状;而这篇论文中未提及的颜色信息可能是联合嵌入或CAD模型检索的另一强大信号。


原文:

https://arxiv.org/abs/1908.06989


Google发布Turbo,可视化工具的里程碑式突破


Turbo 是由Google研究人员提出的一种着色工具,它既有Jet的优势功能,同时也解决了Jet的一些短板,例如细节错误、条带、和颜色混淆等。

             

在开发人员的精心调试下,Turbo的强大性能能够胜任各种可视化任务。在开发过程中,研究人员们制作了一个简单的交互界面,在其中他们能够使用7节立方条来调整RGB曲线,同时将样本结果与其他知名彩绘程序的结果进行比较。


Turbo可以作为顺序和发散的可视化工具,因此它很适合开发人员保存在自己的“工具箱”中。它用于解决均匀性不那么重要的数据可视化任务非常有效,尤其是在需要展现强烈对比的情况下。


Google的团队将这个工具用于实现视差贴图、误差贴图以及许多其他标量的可视化中。您可以在下方链接中找到在Python和C/C++ 中的使用这几技术的方法,以及多项式逼近的方法——用于可能查表查询不太方便的情况中。


Python: 

https://gist.github.com/mikhailov-work/ee72ba4191942acecc03fe6da94fc73f

C/C++: 

https://gist.github.com/mikhailov-work/6a308c20e494d9e0ccc29036b28faa7a

Polynomial approximation:  

https://gist.github.com/mikhailov-work/0d177465a8151eb6ede1768d51d476c7


原文:

https://ai.googleblog.com/2019/08/turbo-improved-rainbow-colormap-for.html


其他爆款论文


使用GANS突破图像扩展:

https://arxiv.org/abs/1908.07007v1


AI着装?坐在家里就能看着自己穿大牌衣服走跑跳:

https://arxiv.org/abs/1908.06903


Google 人工智能团队通过循环神经网络传感器提高了说话人的分类性能:

https://ai.googleblog.com/2019/08/joint-speech-recognition-and-speaker.html


如何通过机器学习算法设计一个原创雕塑:

https://arxiv.org/pdf/1908.07587.pdf


使用基于学习的框架从2D鸟瞰图中估计事物的边界框架:

https://arxiv.org/abs/1908.07085


AI新闻


IBM和Linux合作推广公平且有效的人工智能工具:

https://www.zdnet.com/article/ibm-joins-linux-foundation-ai-to-promote-open-source-trusted-ai-workflows/


2019 企业级人工智能趋势:现状与未来:
https://www.forbes.com/sites/danielnewman/2019/08/21/4-growing-enterprise-ai-trends-where-are-we-now-and-where-are-we-going/#5dead43c6280


人工智能正在加速改变商业广告模式:
https://www.forbes.com/sites/forbesagencycouncil/2019/08/21/how-artificial-intelligence-is-transforming-digital-marketing/#47bae7f221e1


MIT的人工智能技术帮助现代数据中心实现高性能运转:
https://news.mit.edu/2019/decima-data-processing-0821


专栏作者介绍

Christopher Dossman是Wonder Technologies的首席数据科学家,在北京生活5年。他是深度学习系统部署方面的专家,在开发新的AI产品方面拥有丰富的经验。除了卓越的工程经验,他还教授了1000名学生了解深度学习基础。

LinkedIn:

https://www.linkedin.com/in/christopherdossman/


这篇关于狗还是机器人?谁在屏幕后和你对话?新研究开发仿真面对面对话系统 | 一周AI最火论文的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/572243

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

这15个Vue指令,让你的项目开发爽到爆

1. V-Hotkey 仓库地址: github.com/Dafrok/v-ho… Demo: 戳这里 https://dafrok.github.io/v-hotkey 安装: npm install --save v-hotkey 这个指令可以给组件绑定一个或多个快捷键。你想要通过按下 Escape 键后隐藏某个组件,按住 Control 和回车键再显示它吗?小菜一碟: <template

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G