Dialogue Transformers：如何解决医学大模型【偏离主诉和没抓住核心】，建立抗干扰的能力，使得发现用户问题会一追到底？

本文主要是介绍Dialogue Transformers：如何解决医学大模型【偏离主诉和没抓住核心】，建立抗干扰的能力，使得发现用户问题会一追到底？，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Dialogue Transformers：实现抗干扰能力的对话模型

抗干扰能力
基于 Transformer 的实现技术
优化目标

前置知识：从【注意力机制】开始，到【Transformer】的零基础【大模型】系列

Dialogue Transformers 论文地址：https://arxiv.org/pdf/1910.00486.pdf

医学大模型的一个问题：偏离主诉和没抓住核心，顶级医生发现用户问题会一追到底，而不是跟随用户关注无关内容，单纯理解对几句话是毫无意义。

论文中的一段话：

第一行系统的回复是：“您的总额是15.50美元——我要从您上次用的那张卡上扣钱吗？”。

而用户在第二行提出的问题是：“我收到退款后，我的账户上还有存款吗？”这两句话之间的相关性并不明显。

系统给出了【我可以下订单吗?】，而这个回复同第一行内容高度相关，重新回到了之前的对话上下文里的核心问题。

论文证明了，Transformer架构比循环神经网络RNN 模型，更适合于多轮对话的抗干扰能力。

3 种技术实现方案：

对话栈：将对话视为一个堆栈，按照后进先出的方式进行操作。然而，这种技术的缺点是一旦子对话完成并从栈中移除，就无法回到原来的子对话。因此，无法灵活地处理干扰和回到之前的对话上下文。
RNN网络：核心思想是当前状态包含过去的信息。然而，在实际业务对话中，很难获得足够的训练数据来满足RNN的训练需求，导致训练结果不确定性较高。此外，RNN默认使用整个输入进行编码，如果前面的输出有偏差，会导致后续训练结果偏离目标。
Transformers：Transformer相比于前两种技术，在处理意外输入内容时具有更强的抗干扰性。Transformer利用自注意力机制预先选择哪些tokens对当前状态有影响，忽略对当前状态无意义的其他tokens。ta能够独立地进行每一步的预测，并在发现无关输入时保持对话的连贯性。相比之下，使用RNN的REDP机制复制对话历史信息来回到正轨，但相对于Transformer，REDP的网络结构更复杂且泛化能力较差。

对于开放领域的对话，Transformer可以将对话上下文和领域背景知识合并，用于处理开放领域的对话任务。

可以使用 retrieve 模式或通用模式来实现，retrieve 模式使用两层 Transformer 进行相似度对比和回复编码，通用模式则将 Transformer 用作解码器逐个生成回复的 token。

总之，相对于对话栈和 RNN 网络，Transformer 在处理对话中的干扰和回到原对话上下文方面，具有更好的性能和灵活性。

在Transformer的对话机制中，会将对话状态和每个系统行为进行编码，并在训练时最大化ta们之间的相似度。

对当前用户输入的信息 User Intent Entities、系统 BOT 给予的信息、历史信息 Previous System Action 进行编码，形成一个嵌入层 embedding layer。
再将嵌入层里的隐藏状态与每个系统行为 System Action 生成的向量，形成另一个嵌入层，进行相似度比较，以选择相似度 Similarity 排名最高的系统行为。

在这个过程中，采用了单向注意力机制，目的是让 Transformer 无法看到接下来的内容，需要将其遮住。

在端到端的 TED（Transformer Encoder Decoder）策略中，仍然采用 retrieve 模式，不会生成新的响应。

Retrieve模式是从预定义的候选回复集合中选择最合适的回复。在这种模式下，系统不会生成新的响应，而是从候选回复集合中检索出一个最相关的回复作为系统的回应。
基于检索或排序的方法来选择最合适的回复。计算对话历史和每个候选回复之间的相似度或相关性来实现。常见的方法是使用基于词向量或句向量的相似度计算方法，如余弦相似度或点积相似度。

用户和系统的对话被编码成 “bag-of-words” 的向量。