PLATO-2: Towards Building an Open-Domain Chatbot via Curriculum Learning论文学习

2023-11-23 20:00

文章标签 学习论文 building open learning domain via towards chatbot plato curriculum

本文主要是介绍PLATO-2: Towards Building an Open-Domain Chatbot via Curriculum Learning论文学习，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

一、概述

Motivation：直接提升PLATO的size训练不work

Methods：

通过curriculum learning技术来构建一个高质量的开放领域机器人
第一阶段：coarse-gained generation model：再简单的one-to-one框架下学习粗力度的回复生成模型
第二阶段：精调的模型来提高多样性和选择best的回复

1. latent variables：提高多样性
2. evaluation model：选择最好的回复

Conclusion：

在中文以及英文数据集上，PLATO-2都获得了实质的提升
在人类评估指标上非常不错，计算指标上与小冰差一点，小冰可能是检索型的方法来实现的
在2020年DSTC9开放域，任务型，知识型对话任务上，都取得了第一名的成绩

二、大纲

三、详细内容

Introduction
- 预训练模型在开放域对话取得了不错的进展
- 竞品
  - GPT-2，DialoGPT在Reddit comments数据上预训练
  - meena，参数量提升到2.6B + 跟多社交媒体数据 => 回复质量有很大的提升
  - Blender：通过在人工标注的数据集上fine-tune来降低toxic，bias，并且强调环境、知识、同理心和个性等理想的对话技能
  - PlATO v1: 132M 参数 + 8M samples，提升PLATO参数规模会有训练不稳定以及效率问题
- 本文：
  - 尝试去提升PLATO的size，并且通过curriculum learning技术来提高训练效率。
  - 第一阶段：粗粒度生成模型，具备生成典型的多样性的回复能力，也可能造成典型而沉闷的回复，可能会有安全问题，但是对通用生成的概念的学习还是非常有用的
    - latent variables + evaluation => 聚焦于特定的任务，
  - 对比v1版本，通过课程学习来逐渐学习回复生成，先从one-to-one，然后做成one-to-many，并且将模型的参数提高到billions的量级
  - 在闲聊，任务型对话，知识型对话都取得不错的效果，在DSTC9上做了验证
Methodology
- transformer结构 + pre-normalization，与seq2seq不同，没有独立的encoder和decoder网络
- bi-directional上下文编码 + uni-directional 回复生成

Experiments
- training
  - 训练是在64个Nvidia Tesla V100 32G GPU卡上进行的。1.6B参数模型完成课程学习过程大约需要3周时间。
  - 1.2B (context, response) samples in the training set, 0.1M samples in the validation set, and 0.1M sam- ples in the test set
  - Chinese vocabulary, it contains 30K BPE tokens
  - standard version of 1.6B parameters, a small version of 314M parameters, and a tiny version of 93M parameters
- Evaluation Metrics
  - automatic：distinct-1/2：评估词的多样性，不同的gram的词/生成词的总数
  - human
    - utterance-level（话语层次）：
    - coherence：衡量是上下文的相关性和一致性
    - informativeness：衡量回复的信息量
    - dialogue-level（对话层次）：
    - engagingness：是否想聊更长的对话
    - humanness：是否像人类
    - [0,1,2]的分数，分数越高越好
    - 机器和自己对话结果

选择经典的200个话题来作为topic
小冰在distinct指标表现比较好，他可能用了检索的方式来做的
PLATO-2在人工指标上比较好
PLATO-2在DSTC9比赛的开放域对话、知识型对话以及任务型对话的任务上都拿到了第一名的成绩

这篇关于PLATO-2: Towards Building an Open-Domain Chatbot via Curriculum Learning论文学习的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/420383。 23002807@qq.com

相关文章

Java学习手册之Filter和Listener使用方法

Java学习手册之Filter和Listener使用方法

《Java学习手册之Filter和Listener使用方法》：本文主要介绍Java学习手册之Filter和Listener使用方法的相关资料,Filter是一种拦截器,可以在请求到达Servl... 目录一、Filter（过滤器）1. Filter 的工作原理2. Filter 的配置与使用二、Listen

阅读更多...

Python 中的 with open文件操作的最佳实践

Python 中的 with open文件操作的最佳实践

《Python中的withopen文件操作的最佳实践》在Python中,withopen()提供了一个简洁而安全的方式来处理文件操作,它不仅能确保文件在操作完成后自动关闭,还能处理文件操作中的异... 目录什么是 with open()？为什么使用 with open()？使用 with open() 进行

阅读更多...

Java进阶学习之如何开启远程调式

Java进阶学习之如何开启远程调式

《Java进阶学习之如何开启远程调式》Java开发中的远程调试是一项至关重要的技能,特别是在处理生产环境的问题或者协作开发时,：本文主要介绍Java进阶学习之如何开启远程调式的相关资料,需要的朋友... 目录概述Java远程调试的开启与底层原理开启Java远程调试底层原理JVM参数总结&nbsMbKKXJx

阅读更多...

Java深度学习库DJL实现Python的NumPy方式

Java深度学习库DJL实现Python的NumPy方式

《Java深度学习库DJL实现Python的NumPy方式》本文介绍了DJL库的背景和基本功能,包括NDArray的创建、数学运算、数据获取和设置等,同时,还展示了如何使用NDArray进行数据预处理... 目录1 NDArray 的背景介绍1.1 架构2 JavaDJL使用2.1 安装DJL2.2 基本操

阅读更多...

Ollama整合open-webui的步骤及访问

Ollama整合open-webui的步骤及访问

《Ollama整合open-webui的步骤及访问》：本文主要介绍如何通过源码方式安装OpenWebUI,并详细说明了安装步骤、环境要求以及第一次使用时的账号注册和模型选择过程,需要的朋友可以参考... 目录安装环境要求步骤访问选择PjrIUE模型开始对话总结安装官方安装地址：https://docs.

阅读更多...

HarmonyOS学习(七)——UI（五）常用布局总结

HarmonyOS学习(七)——UI（五）常用布局总结

自适应布局 1.1、线性布局（LinearLayout）通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列，Row组件中的子组件按照水平方向排列。属性说明space通过space参数设置主轴上子组件的间距，达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式，且在各类尺寸屏幕上表现一致，其中交叉轴为垂直时，取值为Vert

阅读更多...

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya（不是本人，claude AI）在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。以下是详细的内容：提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

阅读更多...

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画（下）

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画（下）

【课程链接】 AntV G6：深入图形与图形分组、自定义节点、节点动画（下）_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中，应该怎样去计算和绘制图形，如何给一个图形制作不间断的动画，以及在鼠标事件之后产生动画。（有点难，需要好好理解） <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

阅读更多...

学习hash总结

学习hash总结

2014/1/29/ 最近刚开始学hash，名字很陌生，但是hash的思想却很熟悉，以前早就做过此类的题，但是不知道这就是hash思想而已，说白了hash就是一个映射，往往灵活利用数组的下标来实现算法，hash的作用：1、判重；2、统计次数；

阅读更多...

零基础学习Redis(10) -- zset类型命令使用

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合，内部除了存储元素外，还会存储一个score，存储在zset中的元素会按照score的大小升序排列，不同元素的score可以重复，score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd zadd key [NX | XX] [GT | LT] [CH] [INCR] score member [score member ...]

阅读更多...