Alexa Prize 2019 比赛及 Topical-Chat 数据集介绍

2023-10-09 20:50

本文主要是介绍Alexa Prize 2019 比赛及 Topical-Chat 数据集介绍,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文将介绍 Alexa Prize Socialbot Challenge 2019 的比赛情况以及 Topical-Chat 数据集

Aelxa Prize 介绍

Alexa 是为 Amazon Echo 提供支持的语音服务,它使客户仅使用语音即可以更直观的方式与周围的世界互动。

Alexa Prize Socialbot Grand Challenge 是一项旨在促进对话 AI 发展的大学生竞赛,比赛中要求参赛队伍开发一个社交机器人(将作为 Alexa 的一项技能),可以在热门话题和新闻事件上与人类进行连贯和持续的互动交流。

参赛队伍的任务包括知识获取,自然语言理解,自然语言生成,上下文建模,常识推理和对话管理。具体来说,机器人需要具备的能力包括:1)自然的话题切换;2)合理地选择知识;3)能够将事实和观点(知识)融入到对话中。

参赛队伍的机器人将与全美 Alexa 用户进行对话,并且 Alexa 用户可以进行打分和反馈,来将帮助参赛队伍改进算法。

最终获胜的队伍将获得50万美金的大奖。

Alexa Prize 2019

Alexa Prize 从 2017 年开始,目前已经举办三届,第三届(即 Alexa Prize 2019)于不久前结束(2020年7月)。

时间安排

Alexa Prize 2019 整个比赛持续一年多,具体时间安排如下:

时间事件
2019年3月-5月队伍申请阶段
2019年6月宣布参赛队伍(10支)
2019年12月向Alexa用户开放
2020年2月-3月四分之一决赛(9支)
2020年3月-4月半决赛(5支)
2020年5月-7月决赛(3支)
2020年7月专家团评审

比赛结果

半决赛期间,所有队伍的平均得分(Alexa 用户评分,最高5分)为 3.47 分

yearaverage score
20172.91
20183.19
20193.47

来自埃默里大学的冠军队伍平均对话时长为 7分37秒

awardfinal scoreteamschoollast
$500,0003.81EmoraThe Emory University#4
$100,0003.17Chirpy CardinalStanford University-
$50,0003.14AlquistCzech Technical University#2

Alexa 用户最感兴趣的话题(橙色)包括电影、科技和音乐;其中 Other 为其他主题,COVID-19 新冠病毒占比重较大

在这里插入图片描述

比赛过程中,参赛队伍将获得 Amazon 官方支持,包括 研究经费,Alexa 设备,AWS 服务等。除此以外,本次比赛还提供了对话机器人工具包(CoBot)以及主题对话数据集(Topical-Chat)。

Conversaton Bot (CoBot)

Advancing the State of the Art in Open Domain Dialog Systems through the Alexa Prize

系统图

CoBot 是一个对话式机器人工具包,提供一系列的基本模块和预训练模型供参赛队伍使用,可以最大程度上减少参赛队伍在基础架构部署和扩展上耗费的精力,

CoBot 的系统图和工作流程如下:

  • Alexa Skill Kit 提供基本的语音技术功能,比如进行自动语音识别(ASR,automatic speech recognize)以及意图识别等功能
  • AWS lambda 是 AWS 的无服务器接口,开发者可以定义基本的响应事件,来调用后续的触发模块
  • AWS ECS 是 Amazon 的云服务,可以托管预训练等模型
  • TTS 将文本转为语音(text-to-speech)

在这里插入图片描述

架构图

CoBot 内置默认的处理流程,包括主题分类、情感识别和NER等 NLU 模块功能,Evi QA 服务,以及全局的状态管理器(用 key-value 形式保存在 DynamoDB 中),开发者可以在此基础上开发自定义功能及模块。
在这里插入图片描述

  • Dialog Act and Topic Classification

    • 使用基于 层次RNN(HRNN)的主题和意图联合分类模型(单层 GRU)

      在这里插入图片描述

  • Neural Response Generation

    • 基于 GPT-2 在 Topical-Chat 数据集上训练融入知识的生成模型

    • 调用时,输入使用的知识以及对话历史,输出融入知识的回复

      在这里插入图片描述

Topical Chat 数据集

Topical-Chat : Towards Knowledge-Grounded Open-Domain Conversations

基本介绍

Topical-Chat 是一个基于知识的人人对话数据集,其基础知识涵盖8个主题,包括多个知识来源(Washington Post Articles,Reddit fun facts,Wikipedia articles about entities)。

每轮对话标注了说话人情感以及回复的质量,总共包括 10,000 个会话(conversation)230, 000 轮对话(utterance)

对话中没有明确定义参与者的角色(Wizard of Wikipedia, WoW 中存在一个 Wizard 进行对话引导),更符合开放域真实对话特点。

所有主题及对应的实体个数如下:

知识来源

知识库由三个原语构成:实体(entity),事实(fact)和文章(article),获取过程如下

  • 实体选择(Entities Selection)
    • 从前几届比赛用户的回复选择最受欢迎的 8 个主题共300个实体
  • 事实选择(Fact Selection)
    • 获取 300个实体的 Wikipedia 引言部分,然后使用 Reddit 众包为每个实体构造 8-10 个有趣的事实(根据 Wikipedia 引言构造)
    • 对于每个实体,构造两个版本的 Wikipedia 引导部分,第一个是包含引导部分第一句话的短版本(50词),第二个是使用 TextRank 生成引导部分的摘要介绍(150 词)
  • 文章选择(Article Selection)
    • 获取 Washington Post 自2018年以来的文章(600-1000词),总共 3088篇文章,每篇文章至少包含三个上述的实体

知识集构造中,以article作为基础,并且构造多种信息不对称的知识集,并提供给对话双方使用(双方知识集可能不对称,模拟现实情况)。

对话构造过程中,每个实体包含 wikipedia 的短介绍或者摘要介绍以及有趣的事实,过程中对当前回复进行情感标注(Angry, Disgusted, Fearful, Sad, Happy, Surprised, Curious to Dive Deeper, Neutral),以及对对话上一个回复的知识使用进行质量评估(Poor,Not Good,Passable,Good and Excellent)。

数据获取

从 GitHub alexa/Topical-Chat 下载,需要构造知识源数据,过程如下

  • reddit 偏好设置 创建 API Key

    参考 Instructions for getting Reddit API keys? #1

在这里插入图片描述

  • 运行命令

    # Ensure that your Python Interpreter >= 3.7
    git clone https://github.com/alexa/Topical-Chat.git
    cd Topical-Chat/src
    pip install -r requirements.txt# Building the data requires Reddit credentials. 
    # Please create your own Reddit API keys: https://www.reddit.com
    python3 build.py  --reddit_client_id CLIENT_ID --reddit_client_secret CLIENT_SECRET --reddit_user_agent USER_AGENT
    
  • 构造过程(科学上网,用时2个小时)

在这里插入图片描述

数据示例

数据集中包含 frequent 和 rare 两种验证集,前者中的实体在训练集中频繁出现,后者在训练集中较少甚至没有出现过

TrainValid Freq.Valid RareTest Freq.Test RareAll
# conversations862853953953953910784
# utterances18837811681116921176011770235434
average # turns per conversation21.821.621.721.821.821.8
average length of utterance19.519.819.819.519.519.6
  • 对话文件

    {
    <conversation_id>: {"article_url": <article url>,"config": <config>, # one of A,B,C, D"content": [ # ordered list of conversation turns{ "agent": "agent_1", # or “agent_2”,"message" : <message text>,# Angry, Disgusted, Fearful, Sad, Happy, Surprised, Curious to Dive Deeper, Neutral"sentiment": <text>, # Factual Section 1-3, Article Section 1-4 and/or Personal Knowledge"knowledge_source" : ["AS1", "Personal Knowledge",...], "turn_rating": "Poor", # Note: changed from number to actual annotated text},],"conversation_rating": {"agent_1": "Good", # Poor, Not Good, Passable, Good and Excellent"agent_2": "Excellent"}},......
    }
    
  • 知识集合

    {
    <conversation_id> : {"config" : <config>,"agent_1": {"FS1": {"entity": <entity name>,"shortened_wiki_lead_section": <section text>,"fun_facts": [ <fact1_text>, <fact2_text>,...]},"FS2": {...}},"agent_2": {"FS1": {"entity": <entity name>,"shortened_wiki_lead_section": <section text>,"fun_facts": [ <fact1_text>, <fact2_text>,...],},"FS2": {...}},"article": {"url": <url>,"headline" : <headline text>,"AS1": <section 1 text>,"AS2": <section 2 text>,"AS3": <section 3 text>,"AS4": <section 4 text>}}
    ...
    }
    

这篇关于Alexa Prize 2019 比赛及 Topical-Chat 数据集介绍的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/175497

相关文章

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

Redis 中的热点键和数据倾斜示例详解

《Redis中的热点键和数据倾斜示例详解》热点键是指在Redis中被频繁访问的特定键,这些键由于其高访问频率,可能导致Redis服务器的性能问题,尤其是在高并发场景下,本文给大家介绍Redis中的热... 目录Redis 中的热点键和数据倾斜热点键(Hot Key)定义特点应对策略示例数据倾斜(Data S

MySQL中慢SQL优化的不同方式介绍

《MySQL中慢SQL优化的不同方式介绍》慢SQL的优化,主要从两个方面考虑,SQL语句本身的优化,以及数据库设计的优化,下面小编就来给大家介绍一下有哪些方式可以优化慢SQL吧... 目录避免不必要的列分页优化索引优化JOIN 的优化排序优化UNION 优化慢 SQL 的优化,主要从两个方面考虑,SQL 语

Python实现将MySQL中所有表的数据都导出为CSV文件并压缩

《Python实现将MySQL中所有表的数据都导出为CSV文件并压缩》这篇文章主要为大家详细介绍了如何使用Python将MySQL数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到... python将mysql数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到另一个

SpringBoot整合jasypt实现重要数据加密

《SpringBoot整合jasypt实现重要数据加密》Jasypt是一个专注于简化Java加密操作的开源工具,:本文主要介绍详细介绍了如何使用jasypt实现重要数据加密,感兴趣的小伙伴可... 目录jasypt简介 jasypt的优点SpringBoot使用jasypt创建mapper接口配置文件加密

使用Python高效获取网络数据的操作指南

《使用Python高效获取网络数据的操作指南》网络爬虫是一种自动化程序,用于访问和提取网站上的数据,Python是进行网络爬虫开发的理想语言,拥有丰富的库和工具,使得编写和维护爬虫变得简单高效,本文将... 目录网络爬虫的基本概念常用库介绍安装库Requests和BeautifulSoup爬虫开发发送请求解