对话生成方法中的“共鸣”

本文主要是介绍对话生成方法中的“共鸣”，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

今天推荐的是一篇对话生成方向的论文（Empathetic Dialogue Generation via Sensitive Emotion Recognition and Sensible Knowledge Selection），论文将对话过程中用户的情感变化考虑进去，从而可以给用户一种“共鸣”的感觉，针对其不同的情感回复更加贴合其情绪的文本，构造更加人性化的对话系统。感觉是一个不错的出发点，非常贴合实际场景，论文的代码逻辑性也是非常强，喜欢这篇论文的话推荐阅读源码

【摘要】

目前的对话生成方法首先把情感作为单一的静态变量对待，忽视了对话过程中情感的变化，无法产生共鸣，其次，在引入外部知识的时候，没有综合考虑知识和情感之间的一种协调，导致两者可能存在冲突现象。本文提出情感和知识交互的方法（Serial Encoding and Emotion-Knowledge interaction ，SEEK ）以提高对话生成的质量。

论文：2210.11715v2.pdf (arxiv.org)

代码：https://github.com/wlr737/emnlp2022-seek

【引言】

共鸣是对话中至关重要的一点，在对话过程中交互双方产生共鸣有利于对话朝着更好的方向发展。对话系统的关键一点为理解用户的情绪变化，并给出合理的回复。之前的研究者也着力于提高对话系统的共鸣能力，有的采取获取对话中的情绪信息，有的加入共鸣知识。但是目前的方法都是获取对话级别情感，忽略了对话过程中情绪的动态变化。如下图中，用户的情绪从“害怕”转移到“尴尬”。因此本文为了获得对话过程中的情感变化，使用的是utterance-level的编码策略（之前研究者获得的是整个对话文本的情感），其可以获得对话过程中用户的情感变化，在此基础上，提出emotion-intent识别任务，以更好的获得情感变化，为了解决知识和情感之间产生冲突的问题，本文设计了一个两者双向可以交互的框架。

【模型】

为了获得对话过程中的情感变化，设计了几个子任务：每一个对话的情感识别、基于回复的情感意图预测、整个对话的情感识别。在这三个子任务中需要得到对话的编码和知识的编码，以及将这两者进行融合。为了生成回复，需要将融合的对话信息筛选知识，再进入解码器得到回复内容。因此，模型主要过程包括对话编码器、知识编码器、融合对话和知识、选择知识。

1、对话编码器：使用transformer编码，使用cls的输出。

此步将整个对话内容的每一个对话使用transformer的encoder进行编码。并使用其CLS对应的输出作为对话表示。

2、知识编码器：COMET+transformer

使用针对情感的预训练模型COMET对5种类型（人的效果(xEffect)，说话人的影响(xReact)，说话人之前的意图(xIntent)，说话人当前意图(xNeed)，说话人之后意图(xWant)）的知识进行生成，然后再使用上面的transformer得到表示，此步使用平均池化得到最终的知识表示。