论文笔记：ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate

2024-04-01 14:52

文章标签 笔记 llm 论文 multi agent based better towards debate chateval evaluators

本文主要是介绍论文笔记：ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

ICLR 2024 最终评分 55666

1 背景

文本评估通常需要大量的人力和时间成本
- 随着LLM的出现，研究人员探索了LLMs作为人工评估替代方案的潜力
- 基于单一代理的方法表现出潜力，但实验结果表明需要进一步的进展来弥合它们当前的有效性和人类级别的评估质量之间的差距
——>论文采用了多agent辩论框架
- 利用它们各自的能力和专业知识来提高处理复杂任务的效率和效果
- 构建了一个名为ChatEval的多agent裁判团队，允许每个agent使用不同的沟通策略进行协作讨论，以制定最终判断
- 为了丰富评估动态，ChatEval中的每个代理都赋予了独特的个性（persona）
  - ——>确保每个代理专注于不同的视角或带来特定的专业知识。
  - ——>通过这样做，集体评估从更全面的视角受益，捕捉单一视角可能忽略的细微差别

2 方法

将每个LLM视为一个agent，并要求它们从给定的prompt中生成response。
来自其他agent的response作为聊天历史记录，填入prompt template。

2.1 举例

2.2 沟通策略

2.1.1 One-By-One

在每一轮的辩论中，agents轮流按照固定的顺序根据当前的观察产生他们的response。
当一个agent响应时，直接将之前其他agent所说的内容连接到它的聊天历史中。

2.1.2 Simultaneous-Talk

同时说话，即提示agent在每次讨论迭代中异步生成响应，以消除说话顺序的影响

2.1.3 Simultaneous-Talk-with-Summarizer

使用了另一个LLM作为总结器。
在辩论的每次迭代结束时，提示这个额外的LLM总结迄今为止所传达的信息，并将这个摘要送到所有辩手代理的聊天历史中。

3 实验

3.1 效果

3.2 ablation study

这篇关于论文笔记：ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/867436。 23002807@qq.com

相关文章

使用Python自动化生成PPT并结合LLM生成内容的代码解析

使用Python自动化生成PPT并结合LLM生成内容的代码解析

《使用Python自动化生成PPT并结合LLM生成内容的代码解析》PowerPoint是常用的文档工具,但手动设计和排版耗时耗力,本文将展示如何通过Python自动化提取PPT样式并生成新PPT,同时... 目录核心代码解析1. 提取 PPT 样式到 jsON关键步骤：代码片段：2. 应用 JSON 样式到

阅读更多...

利用Python快速搭建Markdown笔记发布系统

利用Python快速搭建Markdown笔记发布系统

《利用Python快速搭建Markdown笔记发布系统》这篇文章主要为大家详细介绍了使用Python生态的成熟工具,在30分钟内搭建一个支持Markdown渲染、分类标签、全文搜索的私有化知识发布系统... 目录引言：为什么要自建知识博客一、技术选型：极简主义开发栈二、系统架构设计三、核心代码实现（分步解析

阅读更多...

mysqld_multi在Linux服务器上运行多个MySQL实例

mysqld_multi在Linux服务器上运行多个MySQL实例

《mysqld_multi在Linux服务器上运行多个MySQL实例》在Linux系统上使用mysqld_multi来启动和管理多个MySQL实例是一种常见的做法,这种方式允许你在同一台机器上运行多个... 目录1. 安装mysql2. 配置文件示例配置文件3. 创建数据目录4. 启动和管理实例启动所有实例

阅读更多...

Retrieval-based-Voice-Conversion-WebUI模型构建指南

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI（简称 RVC）模型是一个基于 VITS（Variational Inference with adversarial learning for end-to-end Text-to-Speech）的简单易用的语音转换框架。具有以下特点简单易用：RVC 模型通过简单易用的网页界面，使得用户无需深入了

阅读更多...

AI hospital 论文Idea

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境，人类医生（即医学学习者）可以在其中与患者代理进行医学

阅读更多...

【学习笔记】陈强-机器学习-Python-Ch15 人工神经网络（1）sklearn

【学习笔记】陈强-机器学习-Python-Ch15 人工神经网络（1）sklearn

系列文章目录监督学习：参数方法【学习笔记】陈强-机器学习-Python-Ch4 线性回归【学习笔记】陈强-机器学习-Python-Ch5 逻辑回归【课后题练习】陈强-机器学习-Python-Ch5 逻辑回归（SAheart.csv）【学习笔记】陈强-机器学习-Python-Ch6 多项逻辑回归【学习笔记及课后题练习】陈强-机器学习-Python-Ch7 判别分析【学

阅读更多...

系统架构师考试学习笔记第三篇——架构设计高级知识（20）通信系统架构设计理论与实践

系统架构师考试学习笔记第三篇——架构设计高级知识（20）通信系统架构设计理论与实践

本章知识考点：第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

阅读更多...

2014 Multi-University Training Contest 8小记

2014 Multi-University Training Contest 8小记

1002 计算几何最大的速度才可能拥有无限的面积。最大的速度的点求凸包，凸包上的点（注意不是端点）才拥有无限的面积注意：凸包上如果有重点则不满足。另外最大的速度为0也不行的。 int cmp(double x){if(fabs(x) < 1e-8) return 0 ;if(x > 0) return 1 ;return -1 ;}struct poin

阅读更多...

2014 Multi-University Training Contest 7小记

2014 Multi-University Training Contest 7小记

1003 数学，先暴力再解方程。在b进制下是个2 ， 3 位数的大概是10000进制以上。这部分解方程 2-10000 直接暴力 typedef long long LL ;LL n ;int ok(int b){LL m = n ;int c ;while(m){c = m % b ;if(c == 3 || c == 4 || c == 5 ||

阅读更多...

2014 Multi-University Training Contest 6小记

2014 Multi-University Training Contest 6小记

1003 贪心对于111...10....000 这样的序列， a 为1的个数，b为0的个数，易得当 x= a / (a + b) 时 f最小。讲串分成若干段 1..10..0 , 1..10..0 , 要满足x非递减。对于 xi > xi+1 这样的合并即可。 const int maxn = 100008 ;struct Node{int

阅读更多...