论文阅读-Towards Quantifiable Dialogue Coherence Evaluation

本文主要是介绍论文阅读-Towards Quantifiable Dialogue Coherence Evaluation,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

出处

背景

1. 现有的自动评价方式

 2. 本文出发点

模型

效果

1. 和其他自动评价指标相比

2. 采用不同的loss

3. GoodCase及BadCase


出处

中山大学2021年提出的评价指标训练框架QuantiDCE,输出一个分数来衡量对话连贯性。论文及开源代码

背景

连贯性可以很好很直观的评价对话效果。

1. 现有的自动评价方式

1. 大多自动评价指标都是照搬机器翻译的,比如基于词overlap的BLEU、ROUGE等。

2. 现在转向基于深度神经网络的自动指标,希望模型能自动学习连贯不连贯的情况,并具有一定的泛化能力。

        (1)比如2018年的RUBER、2019年的BERT-RUBER、2020年的GRADE(STOA)。这类指标从结果上看比BLEU在整体能给出更准确的评价。

        (2)这类模型结构上看,输入是context和Response,编码器(如RNN,transformer)来进行特征提取,最后接一个分数预测模块输出。在loss的选择上,常用的有CEL(交叉熵损失)和MRL(排序损失)。

        (3)将原始对话数据作为正样本,再用一些启发式策略为每一个正样本自动生成一个相应的负样本。采用无监督的训练方式,尽可能量二者区分开。

 2. 本文出发点

人工评价往往是1-5分之间,上述自动评价只能区分是否连贯,而没有给出连贯程度,即量化评价指标。

本文提出了一个两阶段指标训练框架QuantiDCE。通过两阶段的递进式训练,逐步让指标模型掌握量化的能力,从而能够输出与人工打分更为一致的连贯性分数。

模型

每一个context,有3个不连贯级别共15个回复,红色的是满分回答,橙色的是一般回答,绿色的是劣质回答。实心圆圈表示当前对话i每一个级别的centroid得分。context和Response的对先通过BERT进行编码,然后再通过一个MLP得到一个相关性分数。

MLR预训练阶段,旨让模型通过无监督学习,能对不同级别的回复有个初步的判断。模型使用MLR最为损失函数进行优化。 MLRloss包括三部分:separation loss旨在让具有不同连贯性程度的context-response pairs彼此远离;compactness loss是让连贯性程度相同的pairs相互靠近;而最后的ordering loss则是为了约束不同连贯性程度的pairs之前满足一个从小到大的排序关系。

KD微调阶段,则是希望指标模型能够在前面预训练的基础上,进一步学习到人类打分的真实标准。这里损失函数包含两部分,第一部分是MSE,让模型预测分数尽可能接近人工打分。第二部分是一个正则项,用于在微调阶段保留预训练阶段学习到的知识,避免由于微调数量很少而出现过拟合的现象。具体来说,就是固定预训练后的参数(作为teacher),约束待微调的模型(student)各层输出以及中间层注意力矩阵与teacher的保持一致。

效果

1. 和其他自动评价指标相比

用各种自动评价指标和人工评价指标进行相关性比较。可以看到,该模型和人工打分更接近,即更接近真人评估。

2. 采用不同的loss

选用不同的loss进行训练,再去和人工打分做相似性比较。可以看到,多层级排序MLR作为loss,效果更好。

3. GoodCase及BadCase

U1,U2是context中的两个utterance,R是相关回复。

上面的是goodcase,该模型对结果的评价和人工的更接近。而GRADE却给出了很高的分数,认为回答的不错,显然是不对的。

下面的是badcase,两种模型和人工打分差距都远。作者将之归因为,只将句子质量分成了3个级别,而人工会将之分成5个级别。

各种loss简介

1. BCE Loss

BinaryCrossEntropy,适用于2阶量化。只有完美回答是1,其他的都是0

2. MRL

MarginRankingLoss,这里是让相关样本往前排,不相关样本往后。

3. SupCon Loss

supervised contrastive loss,适用于多阶量化。在向量空间中让正负anchor向两边移动。

这篇关于论文阅读-Towards Quantifiable Dialogue Coherence Evaluation的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/240838

相关文章

ssh在本地虚拟机中的应用——解决虚拟机中编写和阅读代码不方便问题的一个小技巧

虚拟机中编程小技巧分享——ssh的使用 事情的起因是这样的:前几天一位工程师过来我这边,他看到我在主机和虚拟机运行了两个vscode环境,不经意间提了句:“这么艰苦的环境写代码啊”。 后来我一想:确实。 我长时间以来都是直接在虚拟机里写的代码,但是毕竟是虚拟机嘛,有时候编辑器没那么流畅,在文件比较多的时候跳转很麻烦,容易卡住。因此,我当晚简单思考了一下,想到了一个可行的解决方法——即用ssh

康奈尔大学之论文审稿模型Reviewer2及我司七月对其的实现(含PeerRead)

前言 自从我司于23年7月开始涉足论文审稿领域之后「截止到24年6月份,我司的七月论文审稿GPT已经迭代到了第五版,详见此文的8.1 七月论文审稿GPT(从第1版到第5版)」,在业界的影响力越来越大,所以身边朋友如发现业界有相似的工作,一般都会第一时间发给我,比如本部分要介绍的康奈尔大学的reviewer2 当然,我自己也会各种看类似工作的论文,毕竟同行之间的工作一定会互相借鉴的,我们会学他们

芯片后端之 PT 使用 report_timing 产生报告如何阅读

今天,就PT常用的命令,做一个介绍,希望对大家以后的工作,起到帮助作用。 在PrimeTime中,使用report_timing -delay max命令生成此报告。switch -delay max表示定时报告用于设置(这是默认值)。 首先,我们整体看一下通过report_timing 运行之后,报告产生的整体样式。 pt_shell> report_timing -from start_

【论文精读】分类扩散模型:重振密度比估计(Revitalizing Density Ratio Estimation)

文章目录 一、文章概览(一)问题的提出(二)文章工作 二、理论背景(一)密度比估计DRE(二)去噪扩散模型 三、方法(一)推导分类和去噪之间的关系(二)组合训练方法(三)一步精确的似然计算 四、实验(一)使用两种损失对于实现最佳分类器的重要性(二)去噪结果、图像质量和负对数似然 论文:Classification Diffusion Models: Revitalizing

【python】python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】 目录 python葡

论文阅读--Efficient Hybrid Zoom using Camera Fusion on Mobile Phones

这是谷歌影像团队 2023 年发表在 Siggraph Asia 上的一篇文章,主要介绍的是利用多摄融合的思路进行变焦。 单反相机因为卓越的硬件性能,可以非常方便的实现光学变焦。不过目前的智能手机,受制于物理空间的限制,还不能做到像单反一样的光学变焦。目前主流的智能手机,都是采用多摄的设计,一般来说一个主摄搭配一个长焦,为了实现主摄与长焦之间的变焦,目前都是采用数字变焦的方式,数字变焦相比于光学

【LLM之KG】CoK论文阅读笔记

研究背景 大规模语言模型(LLMs)在许多自然语言处理(NLP)任务中取得了显著进展,特别是在零样本/少样本学习(In-Context Learning, ICL)方面。ICL不需要更新模型参数,只需利用几个标注示例就可以生成预测。然而,现有的ICL和链式思维(Chain-of-Thought, CoT)方法在复杂推理任务上仍存在生成的推理链常常伴随错误的问题,导致不真实和不可靠的推理结果。

【python】python基于akshare企业财务数据对比分析可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 系列文章目录 目录 系列文章目录一、设计要求二、设计思路三、可视化分析 一、设计要求 选取中铁和贵州茅

AIGC-Animate Anyone阿里的图像到视频 角色合成的框架-论文解读

Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation 论文:https://arxiv.org/pdf/2311.17117 网页:https://humanaigc.github.io/animate-anyone/ MOTIVATION 角色动画的

【python】python股票量化交易策略分析可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 【python】python股票量化交易策略分析可视化(源码+数据集+论文)【独一无二】 目录 【python】pyt