Talk | UCSB博士生许闻达:细粒度可解释评估初探

2023-11-30 14:12

本文主要是介绍Talk | UCSB博士生许闻达:细粒度可解释评估初探,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本期为TechBeat人工智能社区551线上Talk。

北京时间11月29(周三)20:00,UC Santa Barbara博士生许闻达的Talk将准时在TechBeat人工智能社区开播!

他与大家分享的主题是: 细粒度可解释评估初探,分享了他们团队在具备解释性的细粒度评估模型的一系列研究成果。

Talk·信息

主题:细粒度可解释评估初探

嘉宾:加州大学圣塔芭芭拉分校博士生 许闻达

时间:北京时间 11月29日(周三)20:00

地点:TechBeat人工智能社区

点击下方链接,即可观看视频!

TechBeatTechBeat是荟聚全球华人AI精英的成长社区,每周上新来自顶尖大厂、明星创业公司、国际顶级高校相关专业在读博士的最新研究工作。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。icon-default.png?t=N7T8https://www.techbeat.net/talk-info?id=829

Talk·介绍

迎接大语言模型时代的同时,面临着NLP中一项令人头疼的大问题:评估文本生成质量。挑战源自于文本的丰富多样性和评估过程中固有的主观性。虽然人工评估目前看来是最可靠的策略,但却因为高昂的成本和主观性的存在而被人诟病。因此,我们急需一种自动化评估模式,这已经成为当前的首要任务之一。

近期,大家注意到,学术界在开发可学习的评估模型上,无论在有监督还是无监督方面,都取得了显著的突破。但遗憾的是,由于评估模型的分数缺乏有效的校准,这些模型仍然无法清晰、直观地告诉我们问题在哪,至此仍缺乏足够的可解释性。

在研究中,我们的团队工作出色,设计了一套具备解释性的细粒度评估模型。我们通过充分利用生成错误的位置、类别和错误程度,来替代染繁复杂的质量分数,让用户能快速掌握文本质量的情况和所在短板。更为惊喜的是,我们发现这些指标不仅能帮助人类理解错误产生的原因, 它还像一位深思熟虑的老师耐心引导学生一样,能利用这些反馈指导大语言模型的生成,从而进一步提升其性能。

Talk大纲

1、近年来可学习评测的发展,以及在大语言模型时代,评测的重要性

2、我们最近在可学习,解释评估上的突破,和其所带来的意义

3、可解释评测带来的细粒度反馈可以如何提升大语言模型的性能

Talk·预习资料

Image

文章链接:https://arxiv.org/abs/2305.14282

Image

文章链接: https://arxiv.org/pdf/2311.09336

Image

文章链接:https://arxiv.org/abs/2212.09305

Talk·提问交流

在Talk界面下的【交流区】参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!

你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!

Talk·嘉宾介绍

​​​​​​​

Image

许闻达

UC Santa Barbara 博士生

许闻达目前是UCSB计算机系博四的学生,导师是UCSB NLP 的王威廉教授和CMU LTI的李磊教授。博士期间主要的研究方向是文本生成评估和大语言模型对齐。以前,于UC Davis获得本科学位,隶属于UC Davis的Computer vision组,主要研究方向为图像分割和无人驾驶。本科所做的Visual SLAM和道路规划曾获得年度最佳毕业设计奖。

以第一作者身份在多个定会发表过多篇论文, 包括AAAI, EMNLP和ACL,并以协作作者身份发表多篇论文。并在字节谷歌等研究院实习。担任多个顶会的审稿人,包括AAAI, EMNLP和ACL。

个人主页: 

TechBeat


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

这篇关于Talk | UCSB博士生许闻达:细粒度可解释评估初探的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/437320

相关文章

wolfSSL参数设置或配置项解释

1. wolfCrypt Only 解释:wolfCrypt是一个开源的、轻量级的、可移植的加密库,支持多种加密算法和协议。选择“wolfCrypt Only”意味着系统或应用将仅使用wolfCrypt库进行加密操作,而不依赖其他加密库。 2. DTLS Support 解释:DTLS(Datagram Transport Layer Security)是一种基于UDP的安全协议,提供类似于

PR曲线——一个更敏感的性能评估工具

在不均衡数据集的情况下,精确率-召回率(Precision-Recall, PR)曲线是一种非常有用的工具,因为它提供了比传统的ROC曲线更准确的性能评估。以下是PR曲线在不均衡数据情况下的一些作用: 关注少数类:在不均衡数据集中,少数类的样本数量远少于多数类。PR曲线通过关注少数类(通常是正类)的性能来弥补这一点,因为它直接评估模型在识别正类方面的能力。 精确率与召回率的平衡:精确率(Pr

嵌入式技术的核心技术有哪些?请详细列举并解释每项技术的主要功能和应用场景。

嵌入式技术的核心技术包括处理器技术、IC技术和设计/验证技术。 1. 处理器技术    通用处理器:这类处理器适用于不同类型的应用,其主要特征是存储程序和通用的数据路径,使其能够处理各种计算任务。例如,在智能家居中,通用处理器可以用于控制和管理家庭设备,如灯光、空调和安全系统。    单用途处理器:这些处理器执行特定程序,如JPEG编解码器,专门用于视频信息的压缩或解压。在数字相机中,单用途

请解释Java Web应用中的前后端分离是什么?它有哪些好处?什么是Java Web中的Servlet过滤器?它有什么作用?

请解释Java Web应用中的前后端分离是什么?它有哪些好处? Java Web应用中的前后端分离 在Java Web应用中,前后端分离是一种开发模式,它将传统Web开发中紧密耦合的前端(用户界面)和后端(服务器端逻辑)代码进行分离,使得它们能够独立开发、测试、部署和维护。在这种模式下,前端通常通过HTTP请求与后端进行数据交换,后端则负责业务逻辑处理、数据库交互以及向前端提供RESTful

OpenStack:Glance共享与上传、Nova操作选项解释、Cinder操作技巧

目录 Glance member task Nova lock shelve rescue Cinder manage local-attach transfer backup-export 总结 原作者:int32bit,参考内容 从2013年开始折腾OpenStack也有好几年的时间了。在使用过程中,我发现有很多很有用的操作,但是却很少被提及。这里我暂不直接

OpenStack实例操作选项解释:启动和停止instance实例

关于启动和停止OpenStack实例 如果你想要启动和停止OpenStack实例时,有四种方法可以考虑。 管理员可以暂停、挂起、搁置、停止OpenStack 的计算实例。但是这些方法之间有什么不同之处? 目录 关于启动和停止OpenStack实例1.暂停和取消暂停实例2.挂起和恢复实例3.搁置(废弃)实例和取消废弃实例4.停止(删除)实例 1.暂停和取消暂停实例

Zuul详细解释

Zuul 是 Netflix 开源的 API 网关,广泛用于微服务架构中。它作为系统的前置网关,主要功能包括路由、负载均衡、限流、安全性管理等。Zuul 最常见的应用场景是作为反向代理,它接收所有来自客户端的请求,并将请求转发给后端的微服务,从而屏蔽了微服务的复杂性。Spring Cloud 集成了 Zuul,使其成为 Spring Cloud 微服务生态系统中的一个重要组件。 为什么使用 Zu

GetWay详细解释

Spring Cloud Gateway 是 Spring Cloud 提供的一款全功能 API 网关,作为微服务架构中的流量管理工具,提供了统一的入口来处理来自客户端的所有请求。它具有以下功能:路由请求、限流、熔断、监控、认证与授权等。 Spring Cloud Gateway 的设计基于 Spring 5.0 和 Spring Boot 2.0,并与 Spring WebFlux 深度集成,

rtklib.h : RTKLIB constants, types and function prototypes 解释

在 RTKLIB 中,rtklib.h 是一个头文件,包含了与 RTKLIB 相关的常量、类型和函数原型。以下是该头文件的一些常见内容和翻译说明: 1. 常量 (Constants) rtklib.h 中定义的常量通常包括: 系统常量: 例如,GPS、GLONASS、GALILEO 等系统的常量定义。 时间常量: 如一年、一天的秒数等。 精度常量: 如距离、速度的精度标准。 2. 类型

安卓开发板_联发科MTK开发评估套件串口调试

串口调试 如果正在进行lk(little kernel ) 或内核开发,USB 串口适配器( USB 转串口 TTL 适配器的简称)对于检查系统启动日志非常有用,特别是在没有图形桌面显示的情况下。 1.选购适配器 常用的许多 USB 转串口的适配器,按芯片来分,有以下几种: CH340PL2303CP2104FT232 一般来说,采用 CH340 芯片的适配器,性能比较稳定,价