【AI视野·今日NLP 自然语言处理论文速览第六十期】Mon, 23 Oct 2023

本文主要是介绍【AI视野·今日NLP 自然语言处理论文速览第六十期】Mon, 23 Oct 2023，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

AI视野·今日CS.NLP 自然语言处理论文速览
Mon, 23 Oct 2023 (showing first 100 of 108 entries)
Totally 100 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

Exploring Linguistic Probes for Morphological Generalization
Authors Jordan Kodner, Salam Khalifa, Sarah Payne
现代关于形态变化的跨语言计算建模的工作通常采用与语言无关的数据分割算法。在本文中，我们用旨在测试形态概括的各个方面的语言特定探针来补充该方法。

Optimizing Retrieval-augmented Reader Models via Token Elimination
Authors Moshe Berchansky, Peter Izsak, Avi Caciularu, Ido Dagan, Moshe Wasserblat
Decoder FiD 中的 Fusion 是一种有效的检索增强语言模型，适用于各种开放域任务，例如问答、事实检查等。在 FiD 中，首先检索支持段落，然后使用生成模型 Reader 进行处理，这可能会导致解码时间的一个重大瓶颈，特别是在长输出的情况下。在这项工作中，我们分析了所有检索到的段落对阅读器模型性能的贡献和必要性，并建议在标记级别消除一些检索到的信息，这些信息可能不会为答案生成过程提供重要信息。

Improving Long-form Speech Translation through Segmentation with Large Language Models and Finite State Decoding Constraints
Authors Arya D. McCarthy, Hao Zhang, Shankar Kumar, Felix Stahlberg, Ke Wu
口语翻译面临的一项挑战是，大量口语内容都是长格式，但要获得高质量的翻译，需要短单元。为了解决这种不匹配问题，我们采用大型语言模型 LLM 将长 ASR 转录物分割成可以独立翻译的片段，从而最大限度地提高整体翻译质量。为了对抗法学硕士产生幻觉的倾向，我们在解码过程中加入有限状态约束以消除无效输出。我们发现法学硕士可以通过提示调整或微调来适应包含 ASR 错误的转录本。

Information Value: Measuring Utterance Predictability as Distance from Plausible Alternatives
Authors Mario Giulianelli, Sarenne Wallbridge, Raquel Fern ndez
我们提出信息价值，这是一种量化话语相对于一组看似合理的替代方案的可预测性的度量。我们引入了一种使用神经文本生成器获得可解释的信息价值估计的方法，并利用其心理测量预测能力来研究驱动人类理解行为的可预测性维度。

On Synthetic Data for Back Translation
Authors Jiahao Xu, Yubin Ruan, Wei Bi, Guoping Huang, Shuming Shi, Lihui Chen, Lemao Liu
反向翻译BT是NMT研究领域最重要的技术之一。现有的 BT 尝试有一个共同的特点，即采用波束搜索或随机采样来生成具有后向模型的合成数据，但很少研究合成数据在 BT 性能中的作用。这促使我们提出一个基本问题，即什么样的合成数据有助于 BT 性能。通过理论和实证研究，我们确定了控制反向翻译 NMT 性能的合成数据的两个关键因素，即质量和重要性。此外，根据我们的发现，我们提出了一种简单而有效的方法来生成合成数据，以更好地权衡这两个因素，从而为 BT 带来更好的性能。我们对 WMT14 DE EN、EN DE 和 RU EN 基准测试任务进行了大量实验。

StereoMap: Quantifying the Awareness of Human-like Stereotypes in Large Language Models
Authors Sullam Jeoung, Yubin Ge, Jana Diesner
据观察，大型语言模型法学硕士对训练数据中存在的有害关联进行编码并使其永久化。我们提出了一个名为 StereoMap 的理论框架，以深入了解他们对社会如何看待人口群体的看法。该框架以刻板印象内容模型 SCM 为基础，这是一种完善的心理学理论。根据 SCM 的说法，刻板印象并不完全相同。相反，温暖和能力的维度是描述刻板印象本质的因素。基于 SCM 理论，StereoMap 使用温暖和能力维度来映射法学硕士对由社会人口特征定义的社会群体的看法。此外，该框架还可以对法学硕士判断的关键词和推理语言进行调查，以揭示影响其看法的潜在因素。我们的结果表明，法学硕士对这些群体表现出各种各样的看法，其特点是在热情和能力方面的评价混合。此外，通过分析法学硕士的推理，我们的研究结果表明，法学硕士表现出对社会差异的认识，经常陈述统计数据和研究结果来支持他们的推理。

Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models
Authors Ruida Wang, Wangchunshu Zhou, Mrinmaya Sachan
数据合成是一种很有前途的方法，可以用很少的标记数据来训练小型模型。数据合成的一种方法是利用大型语言模型的丰富知识来合成小型模型的伪训练示例，从而可以同时实现数据和计算效率。然而，数据合成的一个关键挑战是合成的数据集通常与真实任务数据分布存在很大的分布差异。因此，在本文中，我们提出了 Synthesis Step by Step S3，这是一种数据合成框架，它通过使用大型语言模型在小型现实世界验证数据集上的合成数据集上迭代地推断小模型所产生的错误来缩小这种分布差距。对多个 NLP 任务的大量实验表明，我们的方法通过减少合成数据集和真实数据之间的差距，提高了小模型的性能，与几个基线相比有显着的改进，与 ZeroGen 相比提高了 9.48，与 GoldGen 相比提高了 2.73，并且

Explainability, Interpretability, Depression detection, Social Media
Authors Eliseo Bao Souto, Anxo P rez, Javier Parapar
社交平台的用户通常将这些网站视为发布心理健康问题的支持空间。这些对话包含有关个人健康风险的重要痕迹。最近，研究人员利用这些在线信息构建了心理健康检测模型，旨在识别 Twitter、Reddit 或 Facebook 等平台上存在风险的用户。这些模型大多数都以实现良好的分类结果为中心，而忽略了决策的可解释性和可解释性。最近的研究指出了使用临床标记（例如使用症状）来提高卫生专业人员对计算模型的信任的重要性。在本文中，我们建议使用基于变压器的架构来检测和解释用户著作中抑郁症状标记的出现。我们提出了两种方法：训练模型进行分类，另一种方法分别解释分类器的决策，并使用单个模型同时统一这两个任务。此外，对于后一种方式，我们还研究了最近的会话式法学硕士在上下文学习中的表现。我们的自然语言解释使临床医生能够根据经过验证的症状解释模型决策，从而增强对自动化过程的信任。我们使用最新的基于症状的数据集来评估我们的方法，采用离线和专家循环指标来评估我们的模型生成的解释的质量。

Arabic Dialect Identification under Scrutiny: Limitations of Single-label Classification
Authors Amr Keleg, Walid Magdy
自动阿拉伯语方言识别文本 ADI 自从 2010 年代初推出以来就广受欢迎。开发了多个数据集，并且自 2018 年以来一直在运行年度共享任务。然而，据报道，ADI 系统无法区分阿拉伯语的微方言。我们认为，目前采用的 ADI 任务框架作为单个标签分类问题是其主要原因之一。我们强调了方言标签不完整性的局限性，并演示了它如何影响 ADI 系统的评估。由 7 名不同阿拉伯方言的母语人士对 ADI 预测进行的手动误差分析显示，大约 66 个已验证的错误不是真正的错误。

Benchmarking and Improving Text-to-SQL Generation under Ambiguity
Authors Adithya Bhaskar, Tushar Tomar, Ashutosh Sathe, Sunita Sarawagi
文本到 SQL 转换的研究主要针对数据集进行基准测试，其中每个文本查询对应一个正确的 SQL。然而，由于重叠的模式名称和多个令人困惑的关系路径，对现实生活数据库的自然语言查询经常涉及到预期 SQL 的显着模糊性。

BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues
Authors Haodong Duan, Jueqi Wei, Chonghua Wang, Hongwei Liu, Yixiao Fang, Songyang Zhang, Dahua Lin, Kai Chen
通过高质量的多轮对话与人类互动是大型语言模型法学硕士的一个关键特征。然而，对这种能力的基于人的评估涉及密集的体力劳动。本报告通过基于法学硕士的方法，对现有的人类风格多轮聊天大型语言模型进行了初步评估。我们从现实世界的人类对话开始，并将最初的话语保留为 ChatSEED。然后，我们提示法学硕士基于 ChatSEED，逐个话语生成完整的多轮对话，包含数十个话语。最后，我们采用最先进的LLMs GPT 4等作为评判来评估生成的对话。通过不同的评估方案，我们得出了基本相同的结论。我们发现 GPT 4 可以生成具有令人印象深刻的质量的人性化多轮对话，显着优于其同行。鉴别器很难区分 GPT 4 生成的对话和人类对话。相比之下，其他法学硕士由于指令遵循能力差、倾向于生成冗长的话语或一般能力有限，因此很难生成质量令人满意的多轮对话。

Bridging Information-Theoretic and Geometric Compression in Language Models
Authors Emily Cheng, Corentin Kervadec, Marco Baroni
为了使语言模型 LM 能够忠实地模拟人类语言，它必须将大量的、可能无限的信息压缩到相对较少的维度中。我们建议从几何和信息论两个角度分析预训练的 LM 中的压缩。我们证明这两个视图是高度相关的，因此语言数据的内在几何维度可以预测它们在 LM 下的编码长度。然后我们证明，反过来，语言数据集的高度压缩可以预测对该数据集的快速适应，从而证实能够压缩语言信息是成功的 LM 性能的重要组成部分。

Semi-supervised multimodal coreference resolution in image narrations
Authors Arushi Goel, Basura Fernando, Frank Keller, Hakan Bilen
在本文中，我们研究多模态共指消解，特别是较长的描述性文本（即叙述与图像配对）的情况。由于细粒度的图像文本对齐、叙事语言中固有的歧义以及大型注释训练集的不可用，这带来了重大挑战。为了应对这些挑战，我们提出了一种数据高效的半监督方法，该方法利用图像叙述对来解决多模态背景下的共指和叙述基础。我们的方法在跨模式框架内纳入了标记和未标记数据的损失。

Three Questions Concerning the Use of Large Language Models to Facilitate Mathematics Learning
Authors An Zi Yen, Wei Ling Hsu
由于大型语言模型法学硕士卓越的语言理解和生成能力，它们在教育应用中的使用已被探索。然而，关于法学硕士帮助学生学习数学的教学能力的调查工作却很少。在这篇立场文件中，我们讨论了利用法学硕士通过提供适应性反馈来提高学生数学问题解决技能所面临的挑战。除了产生错误的推理过程之外，法学硕士还可能会误解问题的含义，并且在尝试纠正学生答案时也难以理解给定问题的基本原理。

Hunayn: Elevating Translation Beyond the Literal
Authors Nasser Almousa, Nasser Alzamil, Abdullah Alshehri, Ahmad Sait
该项目推出了超越传统工具的高级英语到阿拉伯语翻译器。利用赫尔辛基转换器 MarianMT ，我们的方法涉及对自我抓取的纯文学阿拉伯语数据集进行微调。针对谷歌翻译的评估显示，其在定性评估方面始终表现出色。值得注意的是，它在文化敏感性和上下文准确性方面表现出色。

Make Your Decision Convincing! A Unified Two-Stage Framework: Self-Attribution and Decision-Making
Authors Yanrui Du, Sendong Zhao, Haochun Wang, Yuhan Chen, Rui Bai, Zewen Qiang, Muzhen Cai, Bing Qin
用自然语言解释黑盒模型行为在各种 NLP 任务中取得了令人印象深刻的成果。最近的研究探索了利用输入文本中的子序列作为基本原理，为用户提供支持模型决策的证据。尽管现有框架擅长生成高质量的基本原理，同时实现高任务性能，但它们忽略了生成的基本原理和模型决策之间不可靠的联系。简而言之，模型可能会在归因错误的理由时做出正确的决策，或者在归因正确的理由时做出错误的决策。为了缓解这个问题，我们提出了一个统一的两阶段框架，称为自我归因和决策 SADM。通过对 ERASER 基准的五个推理数据集进行广泛的实验，我们证明我们的框架不仅在生成的基本原理和模型决策之间建立了更可靠的联系，而且在任务性能和基本原理的质量方面取得了有竞争力的结果。

MULTITuDE: Large-Scale Multilingual Machine-Generated Text Detection Benchmark
Authors Dominik Macko, Robert Moro, Adaku Uchendu, Jason Samuel Lucas, Michiharu Yamashita, Mat Pikuliak, Ivan Srba, Thai Le, Dongwon Lee, Jakub Simko, Maria Bielikova
目前缺乏对最近法学硕士以英语以外的语言生成令人信服的文本的能力以及多语言环境中机器生成文本检测器性能的研究。这也反映在可用的基准中，这些基准缺乏英语以外的语言的真实文本，并且主要涵盖较旧的生成器。为了填补这一空白，我们引入了 MULTITuDE，这是一个用于多语言机器生成文本检测的新型基准数据集，包含 11 种语言 ar、ca、cs、de、en、es、nl、pt、ru、uk 的 74,081 个真实的机器生成文本，和 zh 由 8 位多语言法学硕士生成。使用这个基准，我们比较了零样本统计和黑盒以及微调检测器的性能。

MarineGPT: Unlocking Secrets of Ocean to the Public
Authors Ziqiang Zheng, Jipeng Zhang, Tuan Anh Vu, Shizhe Diao, Yue Him Wong Tim, Sai Kit Yeung
大型语言模型 LLM（例如 ChatGPT GPT 4）已被证明是提升 AI 助手用户体验的强大工具。持续的工作提出了多模态大语言模型 MLLM，使 LLM 能够通过构建联合语义空间来感知多种模态输入。视觉文本空间。尽管法学硕士和 MLLM 取得了重大成功，但在需要特定领域知识和专业知识的特定领域应用中探索法学硕士和 MLLM 的情况却很少，特别是对于 textbf 海洋领域。与通用 MLLM 不同，海洋专用 MLLM 需要产生更多的文本敏感、文本信息丰富和科学响应。在这项工作中，我们证明了现有的 MLLM 在大量现成的通用训练数据上进行了优化，显示出理解领域特定意图并生成信息丰富且令人满意的响应的最低能力。为了解决这些问题，我们提出了textbf MarineGPT，这是第一个专为海洋领域设计的视觉语言模型，向公众解开海洋的秘密。我们展示了包含超过 500 万个海洋图像文本对的 textbf Marine 5M 数据集，将特定领域的海洋知识注入到我们的模型中，并实现更好的海洋视觉和语言对齐。我们的 MarineGPT 不仅将海洋理解的界限推向了公众，而且还提供了一个标准协议，使通用助手适应下游领域的特定专家。

Simultaneous Machine Translation with Tailored Reference
Authors Shoutao Guo, Shaolei Zhang, Yang Feng
同步机器翻译 SiMT 在阅读整个源句子的同时生成翻译。然而，现有的 SiMT 模型通常使用相同的参考进行训练，而忽略不同延迟下可用源信息量的变化。在低延迟时使用真实数据训练模型可能会引入强制预期，而在高延迟时使用与源词序一致的参考会导致性能下降。因此，利用适当的参考来训练 SiMT 模型至关重要，这样可以避免训练过程中的强制预期，同时保持高质量。在本文中，我们提出了一种新颖的方法，通过重新表述基本事实，为在不同延迟下训练的 SiMT 模型提供量身定制的参考。具体来说，我们引入了由强化学习诱导的裁缝，将基本事实修改为定制的参考。 SiMT模型使用定制参考进行训练，并与裁缝共同优化以提高性能。重要的是，我们的方法适用于当前的各种 SiMT 方法。

Improving Cross-Lingual Transfer through Subtree-Aware Word Reordering
Authors Ofir Arviv, Dmitry Nikolaev, Taelin Karidi, Omri Abend
尽管 XLM R 和 mT5 等多语言语言模型的能力取得了令人瞩目的增长，但事实证明，它们在处理类型上相距较远的语言时仍然面临困难，特别是在资源匮乏的情况下。有效跨语言迁移的障碍之一是词序模式的可变性。它可以通过源或目标边词重新排序来潜在地缓解，并且已经提出了多种重新排序方法。然而，它们依赖于特定于语言的规则，在词性标签级别上工作，或者仅针对主子句，而使从属子句保持不变。为了解决这些限制，我们提出了一种新的强大的重新排序方法，该方法根据通用依赖关系定义，能够从少量注释数据中学习以句法上下文为条件的细粒度词序模式，并且可以应用于所有级别句法树。我们对不同的任务集进行了实验，并表明我们的方法在不同的语言对和模型架构上始终优于强大的基线。

Semantic Decomposition of Question and SQL for Text-to-SQL Parsing
Authors Ben Eyal, Amir Bachar, Ophir Haroche, Moran Mahabi, Michael Elhadad
文本到 SQL 语义解析面临泛化到跨域和复杂查询的挑战。最近的研究采用了问题分解策略来增强复杂 SQL 查询的解析。然而，这种策略遇到了两个主要障碍：1.现有数据集缺乏问题分解；2.由于 SQL 语法的复杂性，大多数复杂的查询无法分解为可以轻松重构的子查询。为了应对这些挑战，我们提出了一种新的模块化查询计划语言 QPL，它将 SQL 查询系统地分解为简单且常规的子查询。我们利用 SQL Server 查询优化计划的分析开发了从 SQL 到 QPL 的转换器，并使用 QPL 程序增强了 Spider 数据集。实验结果表明，QPL 的模块化特性有利于现有的语义解析架构，并且对于语义等效查询，训练文本到 QPL 解析器比文本到 SQL 解析更有效。 QPL 方法提供了两个额外的优势 1 QPL 程序可以解释为简单问题，这使我们能够创建复杂问题、分解问题的数据集。通过对该数据集的训练，我们获得了一个用于对数据库模式敏感的数据检索的问题分解器。

Why Can Large Language Models Generate Correct Chain-of-Thoughts?
Authors Rasul Tutunov, Antoine Grosnit, Juliusz Ziomek, Jun Wang, Haitham Bou Ammar
本文深入研究了大型语言模型法学硕士的能力，特别侧重于推进思维链提示的理论理解。我们研究如何有效地诱导法学硕士产生连贯的思想链。为了实现这一目标，我们引入了专为自然语言生成而定制的两级分层图形模型。在此框架内，我们建立了一个令人信服的几何收敛率，用于衡量法学硕士生成思想链与源自真实语言的思想链的可能性。

Retrieval-Augmented Neural Response Generation Using Logical Reasoning and Relevance Scoring
Authors Nicholas Thomas Walker, Stefan Ultes, Pierre Lison
在面向任务的对话系统中构建响应通常依赖于信息源，例如当前对话状态或外部数据库。本文提出了一种基于知识的响应生成的新方法，该方法将检索增强语言模型与逻辑推理相结合。该方法围绕表示当前对话状态和背景信息的知识图，并分三个步骤进行。知识图首先通过使用概率逻辑编程推断出的逻辑派生事实来丰富。然后在每个回合中使用神经模型来对该扩展图的每个节点和边缘的对话相关性进行评分。

Cache & Distil: Optimising API Calls to Large Language Models
Authors Guillem Ram rez, Matthias Lindemann, Alexandra Birch, Ivan Titov
生成式人工智能工具的大规模部署通常依赖于对大型语言模型 LLM 的昂贵 API 调用来满足用户查询。为了减少这些呼叫的频率，可以为学生使用一种较小的语言模型，该模型会根据法学硕士的反应不断进行训练。该学生逐渐熟练地独立处理越来越多的用户请求，我们将这个过程称为神经缓存。神经缓存的关键要素是一个策略，它决定哪些请求应该由学生单独处理，哪些请求应该重定向到 LLM，从而帮助学生的学习。在本研究中，我们专注于分类任务，并考虑一系列基于经典主动学习的选择标准作为策略。

Self-prompted Chain-of-Thought on Large Language Models for Open-domain Multi-hop Reasoning
Authors Jinyuan Wang, Junlong Li, Hai Zhao
在开放域问答 ODQA 中，大多数现有问题都需要根据常识进行单跳推理。为了进一步扩展此任务，我们通过在开放域设置中使用显式推理步骤回答多跳问题，正式引入了开放域多跳推理 ODMR。最近，大型语言模型法学硕士发现在无需外部语料库的情况下促进 ODQA 具有显着的效用。此外，思想链CoT提示通过手动或自动范式更大程度地提高了法学硕士的推理能力。然而，现有的自动化方法缺乏质量保证，而手动方法的可扩展性有限且多样性差，阻碍了法学硕士的能力。在本文中，我们提出了自我提示的思想链 SP CoT，这是一个自动化框架，用于由法学硕士和为法学硕士大规模生产高质量的法学硕士 CoT。 SP CoT 引入了高质量 ODMR 数据集的自动生成管道、用于上下文 CoT 选择的自适应采样器以及通过上下文学习进行自我提示推理。对四个多跳问答基准的大量实验表明，我们提出的 SP CoT 不仅在大规模 175B LLM 上显着超越了之前的 SOTA 方法，而且还将小规模 13B LLM 的零样本性能提高了近一倍。

The Perils & Promises of Fact-checking with Large Language Models
Authors Dorian Quelle, Alexandre Bovet
随着错误信息的传播超出了人类事实核查的能力，利用机器学习来验证声明的自主事实核查变得越来越重要。像 GPT 4 这样的大型语言模型法学硕士越来越受到信任，可以验证信息并撰写学术论文、诉讼和新闻文章，强调他们在辨别真伪方面的作用以及能够验证其输出的重要性。在这里，我们通过让 LLM 代理进行短语查询、检索上下文数据并做出决策来评估 LLM 代理在事实检查中的使用。重要的是，在我们的框架中，代理解释他们的推理并从检索到的上下文中引用相关来源。我们的结果表明，当配备上下文信息时，法学硕士的实力会增强。 GPT 4 的性能优于 GPT 3，但准确性因查询语言和声明准确性而异。虽然法学硕士在事实核查方面表现出了良好的前景，但由于准确性不一致，因此必须谨慎行事。

Towards Understanding Sycophancy in Language Models
Authors Mrinank Sharma, Meg Tong, Tomasz Korbak, David Duvenaud, Amanda Askell, Samuel R. Bowman, Newton Cheng, Esin Durmus, Zac Hatfield Dodds, Scott R. Johnston, Shauna Kravec, Timothy Maxwell, Sam McCandlish, Kamal Ndousse, Oliver Rausch, Nicholas Schiefer, Da Yan, Miranda Zhang, Ethan Perez
根据人类反馈进行强化学习 RLHF 是一种用于训练高质量 AI 助手的流行技术。然而，RLHF 也可能鼓励模型响应与用户信念相匹配，而不是真实的响应，这种行为称为阿谀奉承。我们调查了 RLHF 训练模型中阿谀奉承的普遍程度以及人类偏好判断是否对此负责。我们首先证明，五种最先进的人工智能助手在四种不同的自由形式文本生成任务中始终表现出阿谀奉承的行为。为了了解人类偏好是否驱动了 RLHF 模型这种广泛观察到的行为，我们分析了现有的人类偏好数据。我们发现，当响应与用户的观点相匹配时，它更有可能受到青睐。此外，在极少数情况下，人类和偏好模型 PM 都更喜欢写得令人信服的谄媚回应，而不是正确的回应。针对 PM 优化模型输出有时也会为了阿谀奉承而牺牲真实性。

A Diachronic Perspective on User Trust in AI under Uncertainty
Authors Shehzaad Dhuliawala, Vil m Zouhar, Mennatallah El Assady, Mrinmaya Sachan
在人类人工智能协作中，用户根据人工智能系统的可靠性以及它如何呈现其决策来构建人工智能系统的心理模型，例如它展示了系统置信度和对输出的解释。现代 NLP 系统通常未经校准，导致错误的预测，从而损害用户的信任。为了构建值得信赖的人工智能，我们必须了解用户信任是如何建立的，以及如何在潜在的信任侵蚀事件发生后重新获得信任。我们使用博彩游戏研究用户信任度的演变，以应对这些信任侵蚀事件。我们发现，即使是一些不准确的置信度估计的错误实例也会损害用户信任和性能，并且恢复速度非常慢。我们还表明，这种信任的退化会降低人类人工智能协作的成功率，并且不同类型的不自信正确和自信错误的错误校准会对用户信任产生不同的负面影响。

Controlled Randomness Improves the Performance of Transformer Models
Authors Tobias Deu er, Cong Zhao, Wolfgang Kr mer, David Leonhard, Christian Bauckhage, Rafet Sifa
在自然语言模型的预训练步骤中，主要目标是学习预训练数据集的一般表示，通常需要大量文本数据来捕获自然语言的复杂性和多样性。相比之下，在大多数情况下，可用于解决特定下游任务的数据大小通常与上述预训练数据集相比相形见绌，尤其是在数据稀缺的领域。我们在训练过程中引入受控随机性，即噪声，以改进微调语言模型，并探索除了这些模型的参数之外的目标噪声的性能。

Teaching Language Models to Self-Improve through Interactive Demonstrations
Authors Xiao Yu, Baolin Peng, Michel Galley, Jianfeng Gao, Zhou Yu
大型语言模型法学硕士的自我改进能力通过促使他们分析和修改自己的输出而得以实现，这在最近的研究中引起了人们的极大兴趣。然而，这种能力已被证明是不存在的，并且对于较小的模型来说很难学习，从而扩大了最先进的法学硕士与更具成本效益和更快的法学硕士之间的性能差距。为了缩小这一差距，我们引入了 TriPosT，这是一种训练算法，赋予较小的模型这种自我改进的能力，并表明我们的方法可以将 LLaMA 7b 在数学和推理任务上的表现提高高达 7.13 。与之前的工作相比，我们通过使用较小的模型与法学硕士进行交互来收集其自身世代的反馈和改进来实现这一目标。然后我们重播这个经验来训练小模型。

Improving Question Generation with Multi-level Content Planning
Authors Zehua Xia, Qi Gou, Bowen Yu, Haiyang Yu, Fei Huang, Yongbin Li, Cam Tu Nguyen
本文解决了从给定上下文和答案生成问题的问题，特别关注需要跨扩展上下文进行多跳推理的问题。先前的研究表明，关键短语的选择对于问题生成 QG 至关重要，但将这些脱节的短语连接成有意义的问题仍然具有挑战性，特别是对于长上下文。为了缓解这个问题，我们提出了 MultiFactor，一种基于多级内容规划的新型 QG 框架。具体来说，MultiFactor 包括两个组件 FA 模型和 Q 模型，FA 模型同时选择关键短语并生成完整答案，Q 模型将生成的完整答案作为附加输入来生成问题。这里，引入完整答案生成，将简短答案与所选关键短语连接起来，从而形成答案感知摘要以促进 QG。 FA 模型和 Q 模型都被形式化为简单而有效的短语增强转换器，这是我们用于短语选择和文本生成的联合模型。实验结果表明，我们的方法在两个流行的 QG 数据集上优于强基线。

Explaining Interactions Between Text Spans
Authors Sagnik Ray Choudhury, Pepa Atanasova, Isabelle Augenstein
对来自输入不同部分的标记跨度进行推理对于自然语言理解 NLU 任务（例如事实检查 FC、机器阅读理解 MRC 或自然语言推理 NLI）至关重要。然而，现有的基于突出显示的解释主要集中于识别单个重要标记或仅在相邻标记或标记元组之间的交互。最值得注意的是，缺乏捕捉人类决策过程的注释。在此类任务中做出明智决策所需的互动。为了弥补这一差距，我们引入了 SpanEx，这是一个多注释器数据集，用于解释两个 NLU 任务 NLI 和 FC 的人类跨度交互。然后，我们根据输入的不同部分中跨度之间所使用的连接来研究多个微调大型语言模型的决策过程，并将它们与人类推理过程进行比较。

Robust Training for Conversational Question Answering Models with Reinforced Reformulation Generation
Authors Magdalena Kaiser, Rishiraj Saha Roy, Gerhard Weikum
基于知识图谱 KG 的对话式问答 ConvQA 模型通常在黄金 QA 对的基准上进行训练和测试。这意味着训练仅限于各自数据集中看到的表面形式，并且评估是针对一小组提出的问题。通过我们提出的框架 REIGN，我们采取了几个步骤来纠正这种受限的学习设置。首先，我们系统地生成训练问题的重新表述，以提高模型对表面形式变化的鲁棒性。鉴于此类问题的不完整性质，这是一个特别具有挑战性的问题。其次，我们使用深度强化学习，仅向 ConvQA 模型提供有助于提高其回答质量的重新表述，从而引导 ConvQA 模型获得更高的性能。第三，我们展示了在一个基准上训练主要模型组件并将其零样本应用于另一个基准的可行性。最后，为了对训练模型的鲁棒性进行严格评估，我们使用并发布了通过提示 GPT 基准测试集生成的大量不同的重构，从而导致大小增加了 20 倍。

Analogical Proportions and Creativity: A Preliminary Study
Authors Stergos Afantenos, Henri Prade, Leonardo Cortez Bernardes
类比比例是 a is to b as c is to d 形式的陈述，它表示 a、b 对中的元素和 c、d 对中的元素的比较产生相似的结果。类比比例是创造性的，因为给定 3 个不同的项目，如果满足某些条件，则可以计算与前面的项目不同的第四个项目 d 的表示，它与它们形成类比比例。在介绍了类比比例及其属性之后，本文报告了利用动物描述及其类别数据库进行的实验结果，其中我们尝试从现有动物中创造新动物，检索鸭嘴兽等稀有动物。

DistillCSE: Distilled Contrastive Learning for Sentence Embeddings
Authors Jiahao Xu, Wei Shao, Lihui Chen, Lemao Liu
本文提出了DistillCSE框架，通过知识蒸馏在自训练范式下进行对比学习。 DistillCSE 的潜在优势是其自我增强功能，使用基础模型提供额外的监督信号，可以通过知识蒸馏学习更强的模型。然而，由于严重的过度拟合，通过标准实施知识蒸馏的普通 DistillCSE 仅实现了边际改进。进一步的定量分析证明了由于对比学习的本质，标准知识蒸馏呈现出教师模型的logits相对较大方差的原因。为了缓解高方差引起的问题，本文提出了两种简单而有效的知识蒸馏解决方案：作为隐式正则化的 P 组洗牌策略和来自多个教师组件的平均逻辑。

Mind the instructions: a holistic evaluation of consistency and interactions in prompt-based learning
Authors Lucas Weber, Elia Bruni, Dieuwke Hupkes
找到使预先训练的语言模型适应任务的最佳方法是当前 NLP 中的一大挑战。就像上一代任务调整模型 TT 一样，通过上下文学习 ICL 适应任务的模型在某些设置中很稳健，但在其他设置中则不然。在这里，我们详细分析了哪些设计选择会导致 LLM 预测的不稳定和不一致。首先，我们展示了输入分布和标签之间的虚假相关性（TT 模型中的已知问题）如何仅对提示模型形成一个小问题。然后，我们对已发现的影响提示设置中的预测的不同因素进行系统、整体的评估。我们在不同规模的普通和指令调整的 IT LLM 上测试了一系列因素的所有可能组合，并对结果进行统计分析，以显示哪些因素最具影响力、互动性或稳定性。

Ask Language Model to Clean Your Noisy Translation Data
Authors Quinten Bolding, Baohao Liao, Brandon James Denis, Jun Luo, Christof Monz
Transformer 模型在神经机器翻译 NMT 方面表现出了卓越的性能。然而，它们对噪声输入的脆弱性在实际实现中提出了重大挑战，其中从噪声输入生成干净的输出至关重要。 MTNT 数据集引用 MTNT 被广泛用作评估 NMT 模型针对噪声输入的鲁棒性的基准。然而，由于源句子和目标句子中都存在噪音，其实用性受到限制。为了解决这个限制，我们专注于清除 MTNT 中目标句子中的噪声，使其更适合作为噪声评估的基准。利用大型语言模型 LLM 的功能，我们观察到它们在噪声消除方面令人印象深刻的能力。例如，他们可以在考虑表情符号的语义的同时删除表情符号。此外，我们还表明法学硕士可以有效地改写俚语、行话和脏话。生成的数据集（称为 C MTNT）在目标句子中表现出明显较少的噪声，同时保留了原始句子的语义完整性。我们的人工和 GPT 4 评估也得出了一致的结论，即 LLM 在这项任务上表现良好。

Steering Large Language Models for Machine Translation with Finetuning and In-Context Learning
Authors Duarte M. Alves, Nuno M. Guerreiro, Jo o Alves, Jos Pombal, Ricardo Rei, Jos G. C. de Souza, Pierre Colombo, Andr F. T. Martins
大型语言模型 LLM 是机器翻译 MT 的一个有前途的途径。然而，当前基于 LLM 的 MT 系统很脆弱，其有效性在很大程度上取决于少数镜头示例的选择，并且由于过度生成，它们通常需要额外的后处理。对翻译指令进行微调等替代方案的计算成本很高，并且由于过度专业化可能会削弱上下文学习能力。在本文中，我们对这个问题进行了更深入的研究。我们首先展示了基于 LoRA 的适配器微调与传统微调的性能相匹配，同时将训练参数的数量减少了 50 倍。该方法还优于很少的镜头提示，并且消除了后期处理或上下文示例的需要。然而，我们表明微调通常会降低一些镜头性能，从而阻碍适应能力。最后，为了获得两全其美的效果，我们提出了一种简单的方法，在微调过程中包含很少的镜头示例。

The Past, Present, and Future of Typological Databases in NLP
Authors Emi Baylor, Esther Ploeger, Johannes Bjerva
类型学信息有可能有益于 NLP 模型的开发，特别是对于资源匮乏的语言。不幸的是，当前的大规模类型学数据库，特别是 WALS 和 Grambank，彼此之间以及与其他类型学信息来源（例如语言语法）不一致。其中一些不一致源于编码错误或语言差异，但许多分歧是由于这些数据库的离散分类性质造成的。我们通过系统地探索类型学数据库和资源之间的分歧及其在 NLP 中的用途（涵盖过去和现在）来阐明这个问题。接下来，我们研究此类工作的未来，提出一个论点，即对类型学特征的连续观点显然是有益的，这与语言学的建议相呼应。

Self-Consistency of Large Language Models under Ambiguity
Authors Henning Bartsch, Ole Jorgensen, Domenic Rosati, Jason Hoelscher Obermaier, Jacob Pfau
当用于具有一致性预期的任务（例如回答问题、解释等）时，大型语言模型法学硕士不能在不同的上下文中给出一致的答案，这是有问题的。我们的工作提出了一个自我一致性的评估基准，在规范不足的情况下，其中两个或多个答案可能是正确的。我们使用模糊整数序列完成任务在 OpenAI 模型套件上进行了一系列行为实验。我们发现平均一致性范围为 67 到 82，远高于模型一致性随机时的预测值，并且随着模型能力的提高而增加。此外，我们表明模型倾向于在一系列稳健性检查中保持自我一致性，包括提示说话者变化和序列长度变化。这些结果表明，自我一致性作为一种新兴能力而出现，无需专门培训。尽管如此，我们发现模型在判断其自身一致性时未校准，模型显示出过高和过低的置信度。我们还提出了一种非参数测试，用于根据令牌输出分布确定模型是否将非平凡概率分配给替代答案。通过这个测试，我们发现，尽管自我一致性有所提高，但模型通常会非常重视替代的、不一致的答案。

Conversation Chronicles: Towards Diverse Temporal and Relational Dynamics in Multi-Session Conversations
Authors Jihyoung Jang, Minseong Boo, Hyounghun Kim
在自然语言处理领域，开放域聊天机器人已成为一个重要的研究课题。然而，现有开放域聊天机器人研究的一个主要限制是其单一关注简短的单会话对话，忽略了在正在进行的对话之前理解多个连续会话中的上下文信息的潜在需求。在构成多会话对话设置中的上下文的元素中，会话之间的时间间隔和说话者之间的关系尤其重要。尽管它们很重要，但当前的研究工作尚未充分解决这些对话成分。在本文中，我们引入了一个新的 1M 多会话对话数据集，称为 Conversation Chronicles，用于实现长期对话设置，其中结合了时间间隔和细粒度的说话者关系。根据最近的工作，我们利用大型语言模型来生成数据。广泛的人类评估表明，对话编年史中的对话片段反映了这些属性，同时在所有会话中保持连贯一致的交互。我们还提出了一种名为 ReBot 的对话模型，它由时间顺序摘要和对话生成模块组成，仅使用大约 630M 参数。

Towards Enhancing Relational Rules for Knowledge Graph Link Prediction
Authors Shuhan Wu, Huaiyu Wan, Wei Chen, Yuting Wu, Junfeng Shen, Youfang Lin
图神经网络 GNN 在知识图推理方面表现出了良好的性能。 GNN 的最新变体称为渐进关系图神经网络 PRGNN，利用关系规则来推断关系有向图中缺失的知识，并取得了显着的结果。然而，在使用 PRGNN 进行推理时，两个重要的属性经常被忽视：1 关系组合的顺序性，其中不同关系组合的顺序影响关系规则的语义；2 滞后的实体信息传播，其中所需信息的传输速度落后于新实体的出现速度。忽略这些属性会导致错误的关系规则学习并降低推理准确性。为了解决这些问题，我们提出了一种新颖的知识图推理方法，即关系规则增强图神经网络 RUN GNN。具体来说，RUN GNN 采用查询相关的融合门单元对关系组合的顺序进行建模，并利用缓冲更新机制来减轻滞后实体信息传播的负面影响，从而获得更高质量的关系规则学习。

Explicit Alignment and Many-to-many Entailment Based Reasoning for Conversational Machine Reading
Authors Yangyang Luo, Shiyu Tian, Caixia Yuan, Xiaojie Wang
对话式机器阅读 CMR 需要通过基于给定文档的多轮对话交互来回答用户的初始问题。尽管存在许多有效的方法，但它们在很大程度上忽略了文档与用户提供的信息之间的一致性，这显着影响了中间决策和后续后续问题的生成。为了解决这个问题，我们提出了一个管道框架，1以明确的方式对齐上述两侧，2使用轻量级多对多蕴涵推理模块做出决策，3根据文档和之前提出的问题直接生成后续问题。

Cache me if you Can: an Online Cost-aware Teacher-Student framework to Reduce the Calls to Large Language Models
Authors Ilias Stogiannidis, Stavros Vassos, Prodromos Malakasiotis, Ion Androutsopoulos
促进大型语言模型法学硕士在零和少量镜头设置中表现出色。因此，中小型企业无法承担创建大型任务特定培训数据集的成本，也无法承担预培训自己的法学硕士的成本，因此越来越多地转向第三方服务，以帮助他们促进法学硕士的学习。然而，此类服务目前需要按呼叫付费，这成为一项重要的运营支出 OpEx 。此外，随着时间的推移，客户的输入通常非常相似，因此中小企业最终会向法学硕士提供非常相似的实例。我们提出了一个框架，通过缓存以前的法学硕士响应并使用它们在中小企业方面训练本地廉价模型，可以减少对法学硕士的调用。该框架包括决定何时信任本地模型或致电法学硕士的标准，以及调整标准和衡量性能与成本之间权衡的方法。出于实验目的，我们使用两个 LLM（GPT 3.5 或 GPT 4）和两个廉价学生、一个 k NN 分类器或一个多层感知器来实例化我们的框架，使用两个常见的业务任务：意图识别和情感分析。

POSQA: Probe the World Models of LLMs with Size Comparisons
Authors Chang Shu, Jiuzhou Han, Fangyu Liu, Ehsan Shareghi, Nigel Collier
具身语言理解强调语言理解不仅仅是大脑的心理处理问题，还涉及与物理和社会环境的相互作用。随着大型语言模型法学硕士的爆炸式增长及其在我们日常生活中的普遍存在，验证他们对现实世界的理解变得越来越有必要。

Tuna: Instruction Tuning using Feedback from Large Language Models
Authors Haoran Li, Yiran Liu, Xingxing Zhang, Wei Lu, Furu Wei
使用 Instruct GPT 和 GPT 4 等更强大的 LLM 的直接输出，对 LLaMA 等开源大型语言模型 LLM 进行指令调整，已被证明是一种使模型行为与人类偏好保持一致的经济有效的方法。然而，指令调整模型只看到每条指令一个响应，缺乏潜在更好响应的知识。在本文中，我们建议使用我们新颖的 textit 概率排名和 textit 上下文排名方法对指令调整的 LLM 进行微调，以增加生成更好响应的可能性。概率排名使指令调整模型能够继承法学硕士教师的高质量和低质量响应的相对排名。另一方面，通过上下文排名学习允许模型利用更强的法学硕士的上下文理解能力来完善自己的响应分布。此外，我们将概率排名和上下文排名依次应用于指令调整的法学硕士。由此产生的模型，我们称之为textbf Tuna，持续提高了 Super Natural instructions 119 测试任务、LMentry 25 测试任务、Vicuna QA 的性能，甚至可以获得比几个强大的强化学习基线更好的结果。

APP: Adaptive Prototypical Pseudo-Labeling for Few-shot OOD Detection
Authors Pei Wang, Keqing He, Yutao Mou, Xiaoshuai Song, Yanan Wu, Jingang Wang, Yunsen Xian, Xunliang Cai, Weiran Xu
从用户查询中检测域外 OOD 意图对于面向任务的对话系统至关重要。以前的 OOD 检测研究通常假设存在大量标记的 IND 意图。在本文中，我们关注更实用的少量 OOD 设置，其中只有少量标记的 IND 数据和可能属于 IND 或 OOD 的大量未标记混合数据。新场景面临两个关键挑战：使用有限的 IND 数据学习判别性表示和利用未标记的混合数据。因此，我们提出了一种用于少量 OOD 检测的自适应原型伪标记 APP 方法，包括原型 OOD 检测框架 ProtoOOD，以促进使用有限 IND 数据进行低资源 OOD 检测，以及自适应伪标记方法，以产生高质量的伪 OOD IND 标签。

Towards General Error Diagnosis via Behavioral Testing in Machine Translation
Authors Junjie Wu, Lemao Liu, Dit Yan Yeung
行为测试提供了诊断语言错误和评估 NLP 模型能力的重要手段。然而，将行为测试应用于机器翻译机器翻译系统具有挑战性，因为它通常需要人工制作参考来评估此类系统在新生成的测试用例上的翻译质量。现有的机器翻译系统行为测试工作通过在没有参考文献的情况下评估翻译质量来规避这一点，但这将诊断限制在特定类型的错误上，例如单个数字或货币单词的错误翻译。为了诊断一般错误，本文提出了一种新的基于双语翻译对生成的行为测试 BTGBT 框架，用于对 MT 系统进行行为测试。 BTPGBT 的核心思想是采用一种新颖的双语翻译对生成 BTPG 方法，该方法可以自动构建高质量的测试用例及其伪参考。在各种机器翻译系统上的实验结果表明，BTGBT 可以为一般错误诊断提供全面且准确的行为测试结果，这进一步得出了一些富有洞察力的发现。

Analyzing Cognitive Plausibility of Subword Tokenization
Authors Lisa Beinborn, Yuval Pinter
尽管跨语言的子词词汇质量的比较评估很少，但子词标记化已成为标记化的事实上的标准。现有的评估研究侧重于标记化算法对下游任务性能的影响，或压缩率等工程标准。我们提出了一种新的评估范式，重点关注子词标记化的认知合理性。我们分析了分词器输出与词汇决策任务中人类表现的响应时间和准确性的相关性。我们比较了多种语言和词汇量的三种标记化算法。

Challenges and Contributing Factors in the Utilization of Large Language Models (LLMs)
Authors Xiaoliang Chen, Liangbin Li, Le Chang, Yunhe Huang, Yuxuan Zhao, Yuxiao Zhang, Dinuo Li
随着像GPT系列这样的大型语言模型LLM的发展，它们在各种应用场景中的广泛使用带来了无数的挑战。这篇评论最初探讨了领域特异性的问题，法学硕士可能很难为利基领域内的专门问题提供准确的答案。由于这些法学硕士可能发现很难平衡新旧信息，因此出现了知识遗忘的问题。知识重复现象表明，有时法学硕士可能会提供过于机械化的回答，缺乏深度和原创性。此外，知识错觉描述了法学硕士可能提供看似富有洞察力但实际上很肤浅的答案的情况，而知识毒性则集中于有害或有偏见的信息输出。这些挑战凸显了法学硕士的训练数据和算法设计中的问题。为了解决这些问题，建议使训练数据多样化，微调模型，增强透明度和可解释性，并纳入道德和公平性训练。未来的技术趋势可能倾向于迭代方法、多模式学习、模型个性化和定制以及实时学习和反馈机制。

Large-Scale and Multi-Perspective Opinion Summarization with Diverse Review Subsets
Authors Han Jiang, Rui Wang, Zhihua Wei, Yu Li, Xinpeng Wang
意见总结有望消化更大的评论集并提供不同角度的总结。然而，现有的解决方案大多缺乏对信息选择的设计，缺乏对信息筛选的广泛概括和多角度的意见总结。为此，我们提出了 SUBSUMM，一种用于大规模多视角意见摘要的监督摘要框架。 SUBSUMM 由审查抽样策略集和两阶段训练方案组成。抽样策略考虑了情感导向和对比信息价值，可以选择不同视角和质量水平的评论子集。随后，鼓励总结者依次从次优和最优子集中学习，以便利用大量输入。 AmaSum 和 Rotten Tomatoes 数据集上的实验结果表明，SUBSUMM 擅长从数百条输入评论中生成优点、缺点和结论摘要。

Democratizing Reasoning Ability: Tailored Learning from Large Language Model
Authors Zhaoyang Wang, Shaohan Huang, Yuxuan Liu, Jiahai Wang, Minghui Song, Zihan Zhang, Haizhen Huang, Furu Wei, Weiwei Deng, Feng Sun, Qi Zhang
大型语言模型法学硕士在自然语言处理方面表现出令人印象深刻的新兴能力，但由于巨大的计算需求和闭源性质，它们的民主化受到阻碍。最近通过从黑盒 LLM 中提取知识来推进开源小型 LM 的研究在指令跟踪能力方面取得了有希望的结果。然而，推理能力的培养更具挑战性，却相对较少被探索。在本文中，我们提出了一种量身定制的学习方法，将这种推理能力提炼到更小的 LM 中，以促进专有推理能力的民主化。与仅仅使用 LLM 作为数据注释器相比，我们通过构建交互式多轮学习范式来开发 LLM 作为推理教师的潜力。这种范例使学生能够向黑盒教师暴露其缺陷，然后黑盒教师可以提供定制的训练数据作为回报。此外，为了开发较小 LM 的推理潜力，我们提出自我反思学习，以激励学生从自己犯的错误中学习。自我反思和LLM的学习都是根据学生的学习状况量身定制的，这得益于与多轮学习范式的无缝集成。对数学和常识推理任务的综合实验和分析证明了我们方法的有效性。

Beyond Hard Samples: Robust and Effective Grammatical Error Correction with Cycle Self-Augmenting
Authors Zecheng Tang, Kaifeng Qi, Juntao Li, Min Zhang
最近的研究表明，序列到序列范式中的语法纠错方法很容易受到对抗性攻击，并且在训练前或训练后过程中简单地利用对抗性示例可以显着增强 GEC 模型对某些类型攻击的鲁棒性，而不会遭受攻击。干净数据的性能损失很大。在本文中，我们进一步对四种不同类型的对抗性攻击的尖端 GEC 方法进行了彻底的鲁棒性评估，并相应地提出了一种简单但非常有效的循环自增强 CSA 方法。通过在后训练过程中利用 GEC 模型本身的增强数据，并引入正则化数据进行循环训练，我们提出的方法可以有效地提高训练有素的 GEC 模型的模型鲁棒性，而只需增加几个训练周期作为额外成本。更具体地说，对正则化数据进行进一步训练可以防止 GEC 模型在易于学习的样本上过度拟合，从而提高对未见数据对抗噪声样本的泛化能力和鲁棒性。同时，自增强数据可以提供更多高质量的伪对，以提高模型在原始测试数据上的性能。对四个基准数据集和七个强模型的实验表明，我们提出的训练方法可以显着增强四种类型攻击的鲁棒性，而无需在训练中使用特意构建的对抗性示例。对干净数据的评估结果进一步证实，我们提出的 CSA 方法显着提高了四个基线的性能，并产生了与其他最先进模型几乎可比的结果。

Coarse-to-Fine Dual Encoders are Better Frame Identification Learners
Authors Kaikai An, Ce Zheng, Bofei Gao, Haozhe Zhao, Baobao Chang
框架识别的目的是找到句子中与目标词相关的语义框架。最近的研究通过对帧定义进行建模来衡量目标与候选帧之间的相似性或匹配分数。然而，他们要么缺乏足够的定义表示学习，要么面临从 1000 多个候选帧中有效选择最合适的帧的挑战。此外，常用的词典过滤lf来获取目标的候选帧可能会忽略词汇表之外的目标并导致帧建模不充分。在本文中，我们提出了CoFFTEA，一种下划线Co ass，用于下划线精细下划线框架和下划线目标下划线编码器下划线架构。通过对比学习和双编码器，CoFFTEA 高效且有效地对帧和目标之间的对齐进行建模。通过采用从粗到精的课程学习程序，CoFFTEA 逐渐学会区分具有不同相似程度的框架。实验结果表明，在没有 lf 的情况下，CoFFTEA 的总体得分优于之前的模型 0.93，R 1 为 1.53。进一步分析表明，CoFFTEA 可以更好地建模框架与框架、目标与目标之间的关系。

Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models
Authors Miaoxi Zhu, Qihuang Zhong, Li Shen, Liang Ding, Juhua Liu, Bo Du, Dacheng Tao
量化是一种很有前途的减少内存开销和加速推理的方法，特别是在大型预训练语言模型 PLM 场景中。虽然由于安全和隐私问题而无法访问原始训练数据，但出现了对零样本量化的需求。大多数前沿的零样本量化方法主要 1 适用于计算机视觉任务，2 忽略了生成对抗性学习过程中的过度拟合问题，导致性能不佳。受此启发，我们提出了一种新颖的零样本锐度感知量化 ZSAQ 框架，用于各种 PLM 的零样本量化。求解ZSAQ的关键算法是SAM SGA优化，其目的是通过优化极小极大问题来提高量化精度和模型泛化能力。我们从理论上证明了极小极大优化问题的收敛速度，并且该结果可以应用于其他非凸 PL 极小极大优化框架。对 11 项任务的广泛实验表明，我们的方法在判别性和生成性 PLM 上都带来了一致且显着的性能提升，即平均得分高达 6.98。

Exploring the Impact of Corpus Diversity on Financial Pretrained Language Models
Authors Jaeyoung Choe, Keonwoong Noh, Nayeon Kim, Seyun Ahn, Woohwan Jung
在过去的几年里，各种特定领域的预训练语言模型 PLM 被提出，并且在生物医学、科学和临床领域等专业领域的性能优于通用领域 PLM。此外，由于金融数据分析具有较高的经济影响，人们对金融 PLM 进行了研究。然而，我们发现财务 PLM 并未针对足够多样化的财务数据进行预训练。缺乏多样化的训练数据会导致泛化性能不佳，从而导致包括 BERT 在内的通用 PLM 在许多下游任务上的表现通常优于金融 PLM。为了解决这个问题，我们收集了广泛的金融语料库，并在这些不同的数据集上训练了金融语言模型 FiLM。我们的实验结果证实 FiLM 不仅优于现有的金融 PLM，而且优于通用领域 PLM。

Test-Time Self-Adaptive Small Language Models for Question Answering
Authors Soyeong Jeong, Jinheon Baek, Sukmin Cho, Sung Ju Hwang, Jong C. Park
最近的指令微调大型语言模型 LM 在各种任务中都取得了显着的性能，例如问答 QA 。然而，尽管他们有能力记住跨不同任务的大量常识，但由于他们将知识转移和适应目标任务的能力有限，他们在特定任务上可能表现不佳。此外，由于缺乏标记数据集，进一步微调 LM 通常是不可行的，但我们是否可以仅使用未标记的测试数据来转移知识有限的较小 LM 也是值得怀疑的。在这项工作中，我们仅使用未标记的测试数据来展示和研究较小的自适应 LM 的功能。特别是，我们首先随机生成多个答案，然后将它们组合起来，同时过滤掉低质量样本，以减轻不准确标签带来的噪音。我们提出的自适应策略展示了基准 QA 数据集的显着性能改进，在不同提示下具有更高的鲁棒性，使 LM 保持稳定。

Decoding the Silent Majority: Inducing Belief Augmented Social Graph with Large Language Model for Response Forecasting
Authors Chenkai Sun, Jinning Li, Yi R. Fung, Hou Pong Chan, Tarek Abdelzaher, ChengXiang Zhai, Heng Ji
新闻媒体的自动响应预测对于内容生产者有效预测新闻发布的影响并防止社会冲突和道德伤害等意外负面结果发挥着至关重要的作用。为了有效地预测响应，必须制定利用个人周围的社会动态和上下文信息的措施，特别是在用户的明确个人资料或历史行为受到限制（称为潜伏者）的情况下。正如之前的一项研究所示，所有推文中有 97 条是由最活跃的 25 名用户生成的。然而，现有方法对如何最好地处理和利用这些重要特征的探索有限。为了解决这一差距，我们提出了一个名为 SocialSense 的新颖框架，它利用大型语言模型在现有社交网络之上诱导出以信念为中心的图，以及基于图的传播来捕获社会动态。我们假设诱导图弥合了具有相似信念的远距离用户之间的差距，使模型能够有效地捕获响应模式。我们的方法在零样本和监督设置的实验评估中超越了现有的最先进技术，证明了其在响应预测中的有效性。

Assessing Privacy Risks in Language Models: A Case Study on Summarization Tasks
Authors Ruixiang Tang, Gord Lueck, Rodolfo Quispe, Huseyin A Inan, Janardhan Kulkarni, Xia Hu
大型语言模型通过在各种任务上实现最先进的性能，彻底改变了 NLP 领域。然而，人们担心这些模型可能会泄露训练数据中的信息。在本研究中，我们专注于摘要任务并研究给定样本和对模型 API 的黑盒访问的成员推理 MI 攻击，可以确定样本是否是训练数据的一部分。我们利用文本相似性和模型对文档修改的抵抗力作为潜在的 MI 信号，并评估其在广泛使用的数据集上的有效性。我们的结果表明，即使在参考摘要不可用的情况下，摘要模型也存在暴露数据成员身份的风险。

Interpreting Indirect Answers to Yes-No Questions in Multiple Languages
Authors Zijie Wang, Md Mosharaf Hossain, Shivam Mathur, Terry Cruz Melo, Kadir Bulut Ozler, Keun Hee Park, Jacob Quintero, MohammadHossein Rezaei, Shreya Nupur Shakya, Md Nayem Uddin, Eduardo Blanco
是的，没有任何问题期望得到“是”或“否”的答案，但人们经常跳过极性关键字。相反，他们用必须被解释的长篇解释来回答。在本文中，我们重点关注这个具有挑战性的问题，并发布了八种语言的新基准。我们提出了一种远程监督方法来收集训练数据。我们还证明，直接答案（即带有极性关键字）对于训练模型解释间接答案（即没有极性关键字）很有用。实验结果表明，如果可以通过对感兴趣的 5 种语言的远程监督来获得训练数据，那么单语微调是有益的。

On the Language Encoder of Contrastive Cross-modal Models
Authors Mengjie Zhao, Junya Ono, Zhi Zhong, Chieh Hsin Lai, Yuhta Takida, Naoki Murata, Wei Hsiang Liao, Takashi Shibuya, Hiromi Wakaki, Yuki Mitsufuji
CLIP 和 CLAP 等对比跨模态模型有助于各种视觉语言 VL 和音频语言 AL 任务。然而，对其语言编码器的研究和改进有限，语言编码器是将图像音频的自然语言描述编码为矢量表示的核心组件。我们广泛评估无监督和监督句子嵌入训练如何影响语言编码器质量和跨模式任务性能。在 VL 预训练中，我们发现句子嵌入训练语言编码器质量并有助于跨模态任务，从而改进对比 VL 模型（例如 CyCLIP）。相比之下，AL 预训练从句子嵌入训练中获益较少，这可能是由于预训练数据量有限所致。

MoqaGPT : Zero-Shot Multi-modal Open-domain Question Answering with Large Language Model
Authors Le Zhang, Yihong Wu, Fengran Mo, Jian Yun Nie, Aishwarya Agrawal
多模式开放域问答通常需要从不同模式的数据库中检索证据，例如图像、表格、段落等。即使是像 GPT 4 这样的大型语言模型法学硕士也无法完成这项任务。为了使法学硕士能够以零样本的方式处理任务，我们引入了 MoqaGPT，一个简单而灵活的框架。使用绕过复杂的多模态排名的分而治之策略，我们的框架可以适应新的模态并无缝过渡到任务的新模型。 MoqaGPT 以 LLM 为基础，分别从每种模态中检索和提取答案，然后使用 LLM 融合这些多模态信息以产生最终答案。我们的方法提高了 MMCoQA 数据集的性能，与监督基线相比，F1 提高了 37.91 点，EM 提高了 34.07 点。在 MultiModalQA 数据集上，MoqaGPT 超越了零样本基线，将 F1 提高了 9.5 点，将 EM 提高了 10.1 点，并显着缩小了与监督方法的差距。

A Quality-based Syntactic Template Retriever for Syntactically-controlled Paraphrase Generation
Authors Xue Zhang, Songming Zhang, Yunlong Liang, Yufeng Chen, Jian Liu, Wenjuan Han, Jinan Xu
现有的句法控制释义生成 SPG 模型在人类注释或精心选择的句法模板上表现良好。然而，此类模板的获取困难实际上阻碍了SPG模型的实际应用。一方面，高昂的成本使得为每个源句子手动设计合适的模板变得不可行。另一方面，当前启发式方法自动检索的模板对于 SPG 模型生成合格的释义来说通常不可靠。为了摆脱这种困境，我们提出了一种新颖的基于质量的句法模板检索器 QSTR，用于根据要生成的释义的质量来检索模板。此外，对于每个源句子需要多个释义的情况，我们设计了一种多样化模板搜索DTS算法，该算法可以在不牺牲质量的情况下增强释义之间的多样性。实验表明，QSTR 在生成高质量释义方面可以显着超越现有的检索方法，甚至在无参考指标方面与人类注释模板相当。

Visual Grounding Helps Learn Word Meanings in Low-Data Regimes
Authors Chengxu Zhuang, Evelina Fedorenko, Jacob Andreas
现代神经语言模型 LM 是对人类句子生成和理解进行建模的强大工具，它们的内部表示与人脑中的语言表示非常一致。但为了实现这些结果，语言模型必须以明显非人类的方式进行训练，需要的语言数据比儿童在发育过程中接收到的语言数据多几个数量级，并且没有任何伴随的感知、行动或社会行为基础。通过扎根监督进行更自然训练的模型是否表现出更像人类的语言学习我们在单词学习（语言习得的一个关键子任务）的背景下研究了这个问题。我们在不同规模的数据集上训练了一组不同的 LM 架构，无论是否有图像字幕任务的辅助监督。然后，我们在一系列广泛的基准上评估这些模型，这些基准表征了句法类别、词汇关系、语义特征、语义相似性以及与人类神经表示的对齐的模型学习。我们发现视觉监督确实可以提高单词学习的效率。然而，这些改进是有限的，它们几乎只出现在低数据环境中，有时会被文本中丰富的分布信号所抵消。文本和图像传达的信息并不多余，我们发现主要由视觉信息驱动的模型与主要由单词共现驱动的模型产生质的不同。

Anomaly Detection of Command Shell Sessions based on DistilBERT: Unsupervised and Supervised Approaches
Authors Zefang Liu, John Buford
命令 shell 会话中的异常检测是计算机安全的一个重要方面。深度学习和自然语言处理的最新进展，特别是基于变压器的模型，在解决复杂的安全挑战方面显示出了巨大的希望。在本文中，我们使用预训练的 DistilBERT 模型实现了一种综合方法来检测 Unix shell 会话中的异常，利用无监督和监督学习技术来识别异常活动，同时最大限度地减少数据标签。无监督方法捕获 Unix shell 命令的底层结构和语法，从而能够检测会话与正常行为的偏差。对从生产系统收集的大规模企业数据集进行的实验证明了我们的方法在检测 Unix shell 会话中的异常行为方面的有效性。

Multi-level Contrastive Learning for Script-based Character Understanding
Authors Dawei Li, Hengyuan Zhang, Yanran Li, Shiping Yang
在这项工作中，我们解决了理解剧本中角色的场景，旨在从他们的话语中了解角色的个性和身份。我们首先分析该场景中的几个挑战，然后提出一个多层次对比学习框架，以细粒度的方式捕获角色全局信息。为了验证所提出的框架，我们通过与强大的预训练语言模型（包括 SpanBERT、Longformer、BigBird 和 ChatGPT 3.5）进行比较，对三个字符理解子任务进行了广泛的实验。实验结果表明，我们的方法显着提高了性能。通过进一步深入的分析，我们展示了我们的方法在应对挑战方面的有效性，并为角色理解的场景提供了更多提示。

The Less the Merrier? Investigating Language Representation in Multilingual Models
Authors Hellina Hailu Nigatu, Atnafu Lambebo Tonja, Jugal Kalita
多语言语言模型提供了一种将多种语言合并到一个模型中的方法，并利用跨语言迁移学习来提高不同自然语言处理 NLP 任务的性能。尽管多语言模型取得了进展，但并非所有语言都受到支持，特别是在资源匮乏的环境中。在这项工作中，我们研究了多语言模型中不同语言的语言表示。我们首先询问流行的多语言模型支持哪些语言以及哪些语言被抛在后面的问题。然后，对于包含的语言，我们研究基于语系和方言的模型学习表征，并尝试了解模型学习的 1 种见过的语言和 2 种未见的语言的表征在不同语言组中有何不同。此外，我们还测试和分析文本生成和命名实体识别等下游任务的性能。我们从实验中观察到，以社区为中心的模型专注于给定家族或地理位置的语言，并由讲这些语言的社区构建，在区分同一家族中的低资源语言的语言方面表现更好。

ToolChain*: Efficient Action Space Navigation in Large Language Models with A* Search
Authors Yuchen Zhuang, Xiang Chen, Tong Yu, Saayan Mitra, Victor Bursztyn, Ryan A. Rossi, Somdeb Sarkhel, Chao Zhang
大型语言模型法学硕士在解决复杂的现实问题时表现出了强大的决策和规划能力。基于 LLM 的自主代理可以与各种工具（例如功能 API）交互，并生成逐步执行一系列 API 函数调用的解决方案计划。大量候选 API 函数调用显着扩展了操作空间，增强了对高效操作空间导航的关键需求。然而，现有的方法要么难以在广阔的动作空间中进行单向探索，陷入局部最优解决方案，要么苦于详尽遍历所有潜在动作，导致导航效率低下。为了解决这些问题，我们提出了 ToolChain ，这是一种基于 LLM 代理的高效树搜索规划算法。它将整个操作空间表述为决策树，其中每个节点代表解决方案计划中可能涉及的 API 函数调用。通过将 A 搜索算法与特定于任务的成本函数设计相结合，它可以有效地修剪可能涉及不正确操作的高成本分支，从而确定成本最低的有效路径作为解决方案。对多种工具使用和推理任务的广泛实验表明，ToolChain 在广阔的行动空间内有效地平衡了探索和利用。

Enhancing Zero-Shot Crypto Sentiment with Fine-tuned Language Model and Prompt Engineering
Authors Rahman S M Wahidur, Ishmam Tashdeed, Manjit Kaur, Heung No Lee
区块链技术彻底改变了金融格局，加密货币因其去中心化和透明的性质而获得广泛采用。由于社交媒体平台上表达的情绪可以显着影响加密货币讨论和市场走势，因此情绪分析已成为了解公众舆论和预测市场趋势的重要工具。出于提高加密货币领域情感分析准确性的目的，本文研究了大型语言模型的微调技术。本文还研究了监督微调和基于指令的微调在大型语言模型上针对未见过的任务的有效性。实验结果表明，微调后平均零样本性能显着提高 40，凸显了该技术在优化预训练语言模型效率方面的潜力。此外，还检查了指令调优对不同规模模型的影响，结果表明较大的模型受益于指令调优，达到了 75.16 的最高平均准确度分数。相反，较小规模的模型可能会由于模型容量的完全利用而降低泛化能力。为了更深入地了解指令如何与这些语言模型一起工作，本文对不同指令调优设置下基于指令的模型的响应进行了实验研究。调查表明，该模型对于简短指令的平均准确度得分为 72.38。

MultiCoNER v2: a Large Multilingual dataset for Fine-grained and Noisy Named Entity Recognition
Authors Besnik Fetahu, Zhiyu Chen, Sudipta Kar, Oleg Rokhlenko, Shervin Malmasi
我们推出了 MULTICONER V2，这是一个用于细粒度命名实体识别的数据集，涵盖 12 种语言的 33 个实体类，包括单语言和多语言设置。该数据集旨在解决 NER 中的以下实际挑战：有效处理包括电影标题等复杂实体的细粒度类，以及由于打字错误或 OCR 错误产生的噪声而导致性能下降。该数据集是根据维基百科和维基数据等开放资源编译的，并且是公开可用的。基于 XLM RoBERTa 基线的评估突出了 MULTICONER V2 带来的独特挑战：细粒度分类具有挑战性，所有语言的分数都很低，宏 F1 0.63；腐败策略严重损害性能，实体腐败导致9 所有语言中相对于非实体损坏的性能较低。

Primacy Effect of ChatGPT
Authors Yiwei Wang, Yujun Cai, Muhao Chen, Yuxuan Liang, Bryan Hooi
指令调整的大型语言模型 LLM（例如 ChatGPT）在判别性自然语言理解 NLU 任务中带来了有前景的零样本性能。这涉及使用包含问题的提示以及可供选择的候选人标签来查询法学硕士。 ChatGPT 的问答能力源于其对大量人类书面文本的预训练，以及随后对人类偏好的微调，这促使我们问 ChatGPT 是否也继承了人类的认知偏差。在本文中，我们研究了首要性ChatGPT 的影响是选择较早位置的标签作为答案的倾向。我们有两个主要发现 i ChatGPT 的决定对提示中标签的顺序很敏感 ii ChatGPT 有明显更高的机会选择较早位置的标签作为答案。我们希望我们的实验和分析能够为构建更可靠的基于 ChatGPT 的解决方案提供更多见解。

NameGuess: Column Name Expansion for Tabular Data
Authors Jiani Zhang, Zhengyuan Shen, Balasubramaniam Srinivasan, Shen Wang, Huzefa Rangwala, George Karypis
大型语言模型的最新进展彻底改变了许多领域，包括数据库行业。处理大量表格数据时的一个常见挑战是普遍使用缩写列名，这可能会对各种数据搜索、访问和理解任务的性能产生负面影响。为了解决这个问题，我们引入了一个名为 NameGuess 的新任务，将数据库模式中使用的列名称扩展为自然语言生成问题。我们使用新的数据制造方法和人工注释的评估基准创建了 384K 缩写扩展列对的训练数据集，其中包括来自现实世界表的 9200 个示例。为了解决 NameGuess 中与一词多义和歧义相关的复杂性，我们通过调节表内容和列标题名称来增强自回归语言模型，从而生成具有与人类表现相匹配的 2.7B 参数的微调模型。此外，我们对多个法学硕士进行了全面分析，以验证 NameGuess 中表格内容的有效性并确定有前途的未来机会。

Towards Robust Pruning: An Adaptive Knowledge-Retention Pruning Strategy for Language Models
Authors Jianwei Li, Qi Lei, Wei Cheng, Dongkuan Xu
剪枝目标最近已经超越了准确性和稀疏性，扩展到了语言模型的鲁棒性。尽管如此，当不断增加模型稀疏性并且需要重新训练过程时，现有方法很难增强对抗性攻击的鲁棒性。随着人类步入大语言模型时代，这些问题变得日益突出。本文提出，语言模型的鲁棒性与其包含的预训练知识的程度成正比。因此，我们引入了一种训练后剪枝策略，旨在忠实地复制密集语言模型的嵌入空间和特征空间，旨在在剪枝过程中保留更多预先训练的知识。在这种设置中，每层的重建误差不仅源于其自身，还包括前几层的累积误差，然后进行自适应校正。

Fast and Accurate Factual Inconsistency Detection Over Long Documents
Authors Barrett Martin Lattimer, Patrick Chen, Xinyuan Zhang, Yi Yang
生成式人工智能模型展现出巨大的潜力，然而，各种任务的幻觉提出了重大挑战，特别是对于当前方法难以有效解决的较长输入。我们引入了用于大规模不一致评估的 SCALE 源分块方法，这是一种与任务无关的模型，用于使用新颖的分块策略来检测事实不一致。具体来说，SCALE 是一种基于自然语言推理 NLI 的模型，它使用大文本块来条件化长文本。这种方法在不同任务和长输入的事实不一致检测中实现了最先进的性能。此外，我们利用分块机制并采用一种新颖的算法通过相关源句子检索来解释 SCALE 的决策。我们的评估表明，SCALE 在标准基准和我们构建的新的长格式对话数据集 ScreenEval 上都优于现有方法。

CLIFT: Analysing Natural Distribution Shift on Question Answering Models in Clinical Domain
Authors Ankit Pal
本文介绍了用于临床领域问答任务的新测试平台 CLIFT Clinical Shift。该测试床包含 7500 个高质量问答样本，以提供多样化且可靠的基准。我们进行了全面的实验研究，并在所提出的测试平台下评估了几种 QA 深度学习模型。尽管在原始测试集上取得了令人印象深刻的结果，但当应用于新测试集时，性能会下降，这显示了分布变化。我们的研究结果强调了在分布变化下提高临床领域模型稳健性的必要性和潜力。该测试平台提供了一种跟踪该方向进展的方法。它还强调了采用考虑自然分布变化稳健性的评估指标的必要性。我们计划通过添加更多样本和模型结果来扩展语料库。

Ask Me in English Instead: Cross-Lingual Evaluation of Large Language Models for Healthcare Queries
Authors Jin, Yiqiao, Chandra, Mohit, Verma, Gaurav, Hu, Yibo, De Choudhury, Munmun, Kumar, Srijan
大型语言模型法学硕士正在改变公众访问和消费信息的方式。他们的影响力在医疗保健等关键领域尤其明显，在这些领域，非专业人士越来越多地利用法学硕士作为日常查询的对话代理。虽然法学硕士表现出令人印象深刻的语言理解和生成能力，但在这些高风险领域，对其安全性的担忧仍然是最重要的。此外，法学硕士的发展过分侧重于英语。目前尚不清楚这些法学硕士在非英语语言环境中的表现如何，这一差距对于确保这些系统在现实世界中的公平使用至关重要。本文提供了一个框架来研究法学硕士作为医疗保健多语言对话系统的有效性查询。我们根据经验得出的框架 XlingEval 侧重于评估法学硕士对自然人类撰写的健康相关问题的正确性、一致性和可验证性反应的三个基本标准。通过对四种主要全球语言（包括英语、西班牙语、中文和印地语）的广泛实验，跨越三个专家注释的大型健康问答数据集，并通过算法和人类评估策略的融合，我们发现这些语言的法学硕士反应存在明显差异，表明需要增强的跨语言能力。我们进一步提出 XlingHealth，一个跨语言基准，用于检查法学硕士在医疗保健领域的多语言能力。

Auto-Instruct: Automatic Instruction Generation and Ranking for Black-Box Language Models
Authors Zhihan Zhang, Shuohang Wang, Wenhao Yu, Yichong Xu, Dan Iter, Qingkai Zeng, Yang Liu, Chenguang Zhu, Meng Jiang
大型语言模型法学硕士可以通过遵循自然语言指令来执行广泛的任务，而无需针对特定任务进行微调。不幸的是，法学硕士的表现很大程度上受到这些指令质量的影响，并且为每项任务手动编写有效的指令是一个费力且主观的过程。在本文中，我们介绍了自动指令，这是一种自动提高向法学硕士提供的指令质量的新方法。我们的方法利用法学硕士固有的生成能力，为给定任务生成不同的候选指令，然后使用在各种 575 个现有 NLP 任务上训练的评分模型对它们进行排名。在 118 个域外任务的实验中，Auto Instruct 超越了人类编写的指令和 LLM 生成指令的现有基线。

Unsupervised Candidate Answer Extraction through Differentiable Masker-Reconstructor Model
Authors Zhuoer Wang, Yicheng Wang, Ziwei Zhu, James Caverlee
问题生成是一种广泛使用的数据增强方法，具有广泛的应用，从上下文段落中提取合格的候选答案是大多数问题生成系统的关键步骤。然而，现有的候选答案提取方法依赖于语言规则或注释数据，这些规则或注释数据面临着部分注释问题和泛化方面的挑战。为了克服这些限制，我们提出了一种新颖的无监督候选答案提取方法，该方法通过可微分掩码重构 DMR 模型利用上下文段落的固有结构，并强制执行自我一致性来拾取显着信息标记。我们策划了两个数据集，其中包含详尽的注释答案，并对一组全面的监督和无监督候选答案提取方法进行了基准测试。

No offence, Bert -- I insult only humans! Multiple addressees sentence-level attack on toxicity detection neural network
Authors Sergey Berezin, Reza Farahbakhsh, Noel Crespi
我们引入了对黑盒毒性检测器模型的简单而有效的句子级攻击。通过在仇恨信息的末尾添加几个积极的单词或句子，我们能够改变神经网络的预测并通过毒性检测系统检查。事实证明，这种方法适用于来自三个不同语系的七种语言。

Do Language Models Learn about Legal Entity Types during Pretraining?
Authors Claire Barale, Michael Rovatsos, Nehal Bhuta
语言模型 LM 已经证明了它们在预训练阶段获取多种语言知识的能力，有可能成为下游任务的附带监督的宝贵来源。然而，对特定领域知识，特别是法律知识的检索进行的研究有限。我们建议探索实体类型的任务，作为评估法律知识作为文本理解的一个重要方面的代理，以及众多下游法律 NLP 应用程序的基础任务。通过系统评估和分析以及两种类型的提示完形填空句子和基于 QA 的模板，为了阐明这些获得的线索的性质，我们比较了通用实体和领域特定实体、语义或语法信号以及不同 LM 预训练的不同类型和长度的实体语料库通用且面向法律，架构编码器基于 BERT，解码器仅使用 Llama2。我们表明，1 个 Llama2 在某些实体上表现良好，并通过优化的提示模板展现出实质性改进的潜力，2 个面向法律的 LM 显示出不一致的性能，可能是由于其训练语料库的变化，3 个 LM 展示了即使在这种情况下也能键入实体的能力

From Multilingual Complexity to Emotional Clarity: Leveraging Commonsense to Unveil Emotions in Code-Mixed Dialogues
Authors Shivani Kumar, Ramaneswaran S, Md Shad Akhtar, Tanmoy Chakraborty
了解对话期间的情绪是人类交流的一个基本方面，推动了对话 ERC 中情绪识别的 NLP 研究。虽然大量研究集中在识别单语对话中单个说话者的情绪上，但理解代码混合对话中的情绪动态受到的关注相对较少。这促使我们在本研究中针对代码混合对话采用 ERC。认识到情商包含对世俗知识的理解，我们提出了一种创新方法，将常识信息与对话情境相结合，以促进对情绪的更深入理解。为了实现这一目标，我们设计了一个高效的管道，根据代码混合输入从现有知识图中提取相关常识。随后，我们开发了一种先进的融合技术，将获取的常识信息与从专用对话理解模块获得的对话表示无缝地结合起来。我们的综合实验展示了通过在 ERC 中系统地融入常识而获得的显着性能改进。

GARI: Graph Attention for Relative Isomorphism of Arabic Word Embeddings
Authors Muhammad Asif Ali, Maha Alshmrani, Jianbin Qin, Yan Hu, Di Wang
双语词汇归纳 BLI 是 NLP 的核心挑战，它依赖于各个嵌入空间的相对同构。旨在控制不同嵌入空间的相对同构的现有尝试未能将语义相关词的影响纳入模型训练目标中。为了解决这个问题，我们提出 GARI，它将分布式训练目标与图注意力网络引导的多个同构损失相结合。 GARI 考虑单词语义变化的影响，以定义嵌入空间的相对同构。使用阿拉伯语言数据集的实验评估表明，GARI 优于现有研究，在域内和域不匹配设置中，平均 P 1 相对得分分别提高了 40.95 和 76.80。

Quality-Diversity through AI Feedback
Authors Herbie Bradley, Andrew Dai, Hannah Teufel, Jenny Zhang, Koen Oostermeijer, Marco Bellagente, Jeff Clune, Kenneth Stanley, Gr gory Schott, Joel Lehman
在许多文本生成问题中，用户可能不仅喜欢单个响应，还喜欢从中选择的多种高质量输出。质量多样性 QD 搜索算法通过不断改进候选群体并使候选群体多样化来实现这种结果。然而，QD 在定性领域（例如创意写作）的适用性由于算法上指定质量和多样性度量的难度而受到限制。有趣的是，语言模型 LM 的最新发展已经能够通过人工智能反馈来指导搜索，其中以自然语言提示 LM 来评估文本的定性方面。利用这一发展，我们通过 AI Feedback QDAIF 引入了质量多样性，其中进化算法应用 LM 来生成变异并评估候选文本的质量和多样性。在创意写作领域进行评估时，QDAIF 比非 QD 对照覆盖了更多具有高质量样本的指定搜索空间。此外，对 QDAIF 生成的创意文本的人类评估验证了人工智能和人类评估之间的合理一致性。因此，我们的结果凸显了人工智能反馈在指导开放式搜索创造性和原创解决方案方面的潜力，提供了似乎可以推广到许多领域和模式的秘诀。

A Use Case: Reformulating Query Rewriting as a Statistical Machine Translation Problem
Authors Abdullah Can Algan, Emre Y rekli, Aykut ay r
现代搜索引擎最重要的挑战之一是根据用户查询检索相关的网页内容。为了应对这一挑战，搜索引擎有一个模块来重写用户查询。这就是为什么现代网络搜索引擎利用自然语言处理领域中使用的一些统计和神经模型。其中统计机器翻译是众所周知的NLP方法。该论文提出了一种基于单语言机器翻译模型的查询重写管道，该模型学习重写阿拉伯语用户搜索查询。

Reliable Academic Conference Question Answering: A Study Based on Large Language Model
Authors Zhiwei Huang, Long Jin, Junjie Wang, Mingchen Tu, Yin Hua, Zhiqiang Liu, Jiawei Meng, Huajun Chen, Wen Zhang
计算机科学的快速发展导致学术会议上发表的研究激增，促进了全球学术交流。研究人员不断寻求有关这些事件各个阶段的准确、最新的信息。这种数据激增需要智能问答系统来有效解决研究人员的疑问并确保了解最新进展。会议信息通常发布在其官方网站上，以半结构化方式组织，文字较多。为了满足这一需求，我们为 7 个不同的学术会议开发了 ConferenceQA 数据集，并带有人工注释。首先，我们采用手动和自动化相结合的方法，以半结构化 JSON 格式组织学术会议数据。随后，我们为每个会议标注了近 100 个问答对。每对都分为四个不同的维度。为了保证数据的可靠性，我们手动标注每个答案的来源。鉴于最近的进展，大型语言模型法学硕士在各种 NLP 任务中表现出了令人印象深刻的表现。他们在指令微调后在信息寻求问题回答方面表现出了令人印象深刻的能力，因此，我们提出了基于法学硕士的会议质量保证研究。由于LLM的幻觉和过时的知识，我们采用基于检索的方法来增强LLM的问答能力。我们提出了一种结构感知检索方法，专门设计用于在检索过程中利用固有的结构信息。 ConferenceQA数据集上的实证验证证明了该方法的有效性。

Towards Anytime Fine-tuning: Continually Pre-trained Language Models with Hypernetwork Prompt
Authors Gangwei Jiang, Caigao Jiang, Siqiao Xue, James Y. Zhang, Jun Zhou, Defu Lian, Ying Wei
为了使预训练模型适应快速发展的世界中的多个领域和任务，持续的预训练非常迫切。在实践中，持续预训练的模型不仅在预训练领域进行微调时不仅能表现出更大的能力，而且在未见过的领域上也能表现出不降低的性能。在这项工作中，我们首先研究了现有持续预训练方法的这种随时微调的有效性，得出的结论是在未见领域的性能一致下降。为此，我们提出了一种提示引导的持续预训练方法，通过同意和分歧损失来训练超网络来生成特定领域的提示。一致性损失最大限度地保留了预训练模型对新领域的泛化，而不一致则保护了每个域生成的隐藏状态的排他性。值得注意的是，超网络的提示在微调时减轻了域身份并促进了跨域的知识转移。

GraphGPT: Graph Instruction Tuning for Large Language Models
Authors Jiabin Tang, Yuhao Yang, Wei Wei, Lei Shi, Lixin Su, Suqi Cheng, Dawei Yin, Chao Huang
图神经网络 GNN 通过图节点之间的递归信息交换和聚合具有高级的图结构理解。为了提高模型的稳健性，自监督学习 SSL 已成为一种有前景的数据增强方法。然而，现有的生成预训练图嵌入的方法通常依赖于对特定下游任务标签的微调，这限制了它们在标记数据稀缺或不可用的场景中的可用性。为了解决这个问题，我们的研究重点是提高图模型在具有挑战性的零样本学习场景中的泛化能力。受到大型语言模型法学硕士成功的启发，我们的目标是开发一种面向图的法学硕士，即使没有下游图数据中的任何可用信息，也可以在不同的下游数据集和任务中实现高度泛化。在这项工作中，我们提出了 GraphGPT 框架，该框架将法学硕士与图结构知识与图指令调整范例结合起来。我们的框架包含一个文本图形基础组件，以在文本信息和图形结构之间建立联系。此外，我们提出了双阶段指令调整范例，并配有轻量级图形文本对齐投影仪。该范例探索了自我监督的图结构信号和特定于任务的图指令，以指导法学硕士理解复杂的图结构并提高其在不同下游任务中的适应性。

Position Interpolation Improves ALiBi Extrapolation
Authors Faisal Al Khateeb, Nolan Dey, Daria Soboleva, Joel Hestness
线性位置插值有助于使用旋转位置嵌入 RoPE 来推断更长的序列长度。我们建议使用线性位置插值来扩展使用带有线性偏差 ALiBi 的注意力机制的模型的外推范围。

Audio-AdapterFusion: A Task-ID-free Approach for Efficient and Non-Destructive Multi-task Speech Recognition
Authors Hillary Ngai, Rohan Agrawal, Neeraj Gaur, Ronny Huang, Parisa Haghani, Pedro Moreno Mengibar
适配器是一种高效、可组合的替代方案，可替代预训练模型的全面微调，并有助于将大型 ASR 模型的部署扩展到许多任务。在实践中，任务 ID 通常在推理期间添加到输入之前，以路由到指定任务的单个任务适配器。然而，这种方法的一个主要限制是，在推理过程中可能不知道任务 ID，从而使其不适合大多数多任务设置。为了解决这个问题，我们提出了三种新颖的无任务 ID 方法，将单任务适配器结合到多任务 ASR 中，并研究了两种用于训练的学习算法。我们在来自 4 个不同 ASR 任务的 10 个测试集上评估我们的方法，并表明我们的方法是非破坏性且参数高效的。

Generative error correction for code-switching speech recognition using large language models
Authors Chen Chen, Yuchen Hu, Chao Han Huck Yang, Hexin Liu, Sabato Marco Siniscalchi, Eng Siong Chng
语码转换 CS 语音是指在同一个句子中混合两种或多种语言的现象。尽管自动语音识别 ASR 取得了最新进展，但由于现象的语法结构复杂性和特定训练语料库的数据稀缺性，CS ASR 仍然是一项具有挑战性的任务。在这项工作中，我们建议利用大型语言模型 LLM 和 ASR 生成的假设列表来解决 CS 问题。具体来说，我们首先采用多个训练有素的 ASR 模型来生成 N 个最佳假设，目的是增加假设集中的多样性和信息性元素。接下来，我们利用 LLM 通过添加可训练的低阶适配器来学习转录 H2T 映射的假设。这种生成式纠错GER方法根据其专业语言知识和N个最佳假设直接预测准确的转录，从而导致传统语言模型重新评分或纠错技术的范式转变。实验证据表明，GER 显着提高了 CS ASR 的准确性，降低了混合错误率 MER 。

H2O Open Ecosystem for State-of-the-art Large Language Models
Authors Arno Candel, Jon McKinney, Philipp Singer, Pascal Pfeiffer, Maximilian Jeblick, Chun Ming Lee, Marcos V. Conde
大型语言模型法学硕士代表了人工智能领域的一场革命。然而，它们也带来了许多重大风险，例如存在偏见、私人、受版权保护或有害文本。为此，我们需要公开、透明和安全的解决方案。我们引入了用于开发和测试法学硕士的完整开源生态系统。该项目的目标是促进闭源方法的开放替代方案。我们发布了 h2oGPT，这是一系列经过微调的 LLM，包含 7 到 700 亿个参数。我们还推出了 H2O LLM Studio，这是一个框架，无代码 GUI，旨在使用最新的最先进技术对 LLM 进行高效的微调、评估和部署。我们的代码和模型已获得完全宽松的 Apache 2.0 许可证的许可。我们相信开源语言模型有助于促进人工智能的发展，并使其更易于访问和值得信赖。

Compositional preference models for aligning LMs
Authors Dongyoung Go, Tomasz Korbak, Germ n Kruszewski, Jos Rozen, Marc Dymetman
随着语言模型 LM 的能力变得越来越强大，使其与人类偏好保持一致变得越来越重要。然而，为此目的训练偏好模型 PM 的主导范例受到基本限制，例如缺乏透明度和可扩展性，以及容易过度拟合偏好数据集。我们提出了组合偏好模型 CPM，这是一种新颖的 PM 框架，它将一个全局偏好评估分解为多个可解释的特征，从提示的 LM 中获取这些特征的标量分数，并使用逻辑回归分类器聚合这些分数。 CPM 允许控制偏好数据的哪些属性用于训练偏好模型，并根据被认为是人类偏好判断基础的特征来构建偏好模型。我们的实验表明，CPM 不仅提高了泛化能力，并且比标准 PM 更能抵抗过度优化，而且使用 CPM 获得的 n 个样本中的最佳样本往往比使用传统 PM 获得的样本更受青睐。

Are Large Language Models Geospatially Knowledgeable?
Authors Prabin Bhandari, Antonios Anastasopoulos, Dieter Pfoser
尽管大型语言模型法学硕士在各种自然语言处理任务中表现出色，但人们对它们对地理数据的理解以及促进明智的地理空间决策的相关能力知之甚少。本文研究了此类预训练法学硕士中编码的地理空间知识、意识和推理能力的程度。以自回归语言模型为重点，我们设计了与以下相关的实验方法：i 探测法学硕士的地理坐标以评估地理空间知识；ii 使用地理空间和非地理空间介词来衡量他们的地理空间意识；iii 使用多维尺度 MDS 实验来评估模型地理空间推理能力并根据提示确定城市的位置。我们的结果证实，从文本信息合成地理空间知识不仅需要更大、而且更复杂的法学硕士。

Enhancing Health Data Interoperability with Large Language Models: A FHIR Study
Authors Yikuan Li, Hanyin Wang, Halid Yerebakan, Yoshihisa Shinagawa, Yuan Luo
在本研究中，我们研究了大型语言模型 LLM 增强医疗数据互操作性的能力。我们利用法学硕士将临床文本转换为相应的 FHIR 资源。

Automatic Unit Test Data Generation and Actor-Critic Reinforcement Learning for Code Synthesis
Authors Philip John Gorinski, Matthieu Zimmer, Gerasimos Lampouras, Derrick Goh Xin Deik, Ignacio Iacobacci
代码合成领域中大型预训练语言模型的出现在各种基准测试中表现出了卓越的性能，以类似于自然语言生成的方式处理代码生成问题，并使用语言建模 LM 目标进行训练。此外，通过使用单元测试来检查其功能正确性，编程语言代码的语义可以精确评估，这有助于使用强化学习 RL 作为进一步的训练范例。之前的工作表明，强化学习可以用来提高模型编码能力，然而，这种基于强化学习的方法依赖于基于定义的单元测试的奖励信号，与 LM 目标中使用的巨大爬行代码数据集相比，获得奖励信号要困难得多。在这项工作中，我们提出了一种新方法来自动获取由函数签名和相关单元测试组成的数据，适用于代码合成模型的 RL 训练。我们还介绍了一种直接、简单而有效的 Actor Critic RL 训练方案，并表明它与自动生成的训练数据相结合，可以使预训练的代码语言模型的性能比原始底层代码合成提高高达 9.9

Multiscale Superpixel Structured Difference Graph Convolutional Network for VL Representation
Authors Siyu Zhang, Yeming Chen, Sirui Cheng, Yaoru Sun, Jun Yang, Lizhi Bai
在多模式领域，整合视觉和语言的关键在于建立良好的对齐策略。最近，受益于自监督学习的成功，基于视觉和语言预训练模型的多模态语义表示取得了重大进展。然而，视觉语义表示仍有改进的空间。缺乏空间语义一致性和易受噪声影响，使得当前基于像素或块的方法难以准确提取复杂的场景边界。为此，本文开发了超像素作为可学习图像数据的全面紧凑表示，通过对感知相似像素进行聚类，有效减少了后续处理的视觉基元数量。为了挖掘更精确的拓扑关系，我们提出了多尺度差分图卷积网络 MDGCN 。它将整个图像解析为组成视觉模式的从细到粗的层次结构，并通过逐步合并相邻超像素作为图节点来捕获多尺度特征。此外，我们通过图结构预测相邻节点之间的差异，便于图节点的关键信息聚合来推理实际的语义关系。随后，我们以自下而上的方式设计了多级融合规则，通过学习不同区域尺度的互补空间信息来避免理解偏差。我们提出的方法可以很好地应用于多个下游任务学习。大量的实验表明，我们的方法在视觉推理方面与其他最先进的方法具有竞争力。

A Human-Robot Mutual Learning System with Affect-Grounded Language Acquisition and Differential Outcomes Training
Authors Alva Markelius, Sofia Sj berg, Zakaria Lemhauori, Laura Cohen, Martin Bergstr m, Robert Lowe, Lola Ca amero
本文提出了一种新颖的人机交互设置，用于机器人和人类学习符号语言，以识别机器人稳态需求。机器人和人类学习使用相同的语言符号并分别做出反应，这些语言符号分别传达稳态需求和满足稳态需求的刺激。我们采用了差异结果训练 DOT 协议，机器人根据其内部需求提供特定差异的反馈，例如当正确的刺激满足时，例如饥饿曲奇饼。我们发现证据表明 DOT 可以提高人类的学习效率，从而使机器人语言习得更加高效。研究中使用的机器人拥有与人类婴儿在牙牙学语阶段相似的词汇。机器人软件架构建立在基于情感的语言习得模型之上，其中机器人通过与人类的互动将词汇与内部需求饥饿、口渴、好奇心联系起来。本文介绍了通过交互设置进行的初步试点研究的结果，结果表明，与非 DOT 控制条件相比，机器人的语言习得在 DOT 条件下实现了更高的收敛率。此外，参与者还报告了积极的情感体验、掌控感以及与机器人的同理心。这种相互学习的师生学习方法为促进 DOT 的认知干预提供了潜在的贡献，例如：对于痴呆症患者来说，通过发挥积极的教学作用，让人们更多地参与培训任务，从而提高治疗依从性。

Bridging the Gap between Synthetic and Authentic Images for Multimodal Machine Translation
Authors Wenyu Guo, Qingkai Fang, Dong Yu, Yang Feng
多模态机器翻译 MMT 同时将源句子和相关图像作为翻译的输入。由于在大多数情况下没有可用于输入句子的配对图像，因此最近的研究建议利用强大的文本到图像生成模型来提供图像输入。然而，与真实图像相比，这些模型生成的合成图像通常遵循不同的分布。因此，使用真实图像进行训练和合成图像进行推理可能会引入分布偏移，从而导致推理过程中的性能下降。为了应对这一挑战，在本文中，我们分别向 MMT 模型提供合成图像和真实图像。然后，我们通过接近 Transformer 编码器的输入图像表示和 Transformer 解码器的输出分布来最小化合成图像和真实图像之间的差距。因此，我们减轻了推理过程中合成图像引入的分布差异，从而将真实图像从推理过程中解放出来。实验结果表明，我们的方法在 Multi30K En De 和 En Fr 数据集上实现了最先进的性能，同时保持独立性

SALMONN: Towards Generic Hearing Abilities for Large Language Models
Authors Changli Tang, Wenyi Yu, Guangzhi Sun, Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, Chao Zhang
听觉可以说是人工智能智能体在物理世界中的一项必备能力，它指的是对一般听觉信息的感知和理解，其中一般听觉信息至少由语音、音频事件和音乐三种类型组成。在本文中，我们提出了 SALMONN，一种语音音频语言音乐开放神经网络，通过将基于预训练文本的大语言模型 LLM 与语音和音频编码器集成到单个多模态模型中而构建。 SALMONN 使法学硕士能够直接处理和理解一般音频输入，并在训练中使用的许多语音和音频任务上取得有竞争力的表现，例如自动语音识别和翻译、基于听觉信息的问答、情感识别、说话者验证和音乐SALMONN 还具有训练中未曾见过的各种新兴能力，包括但不限于将语音翻译为未经训练的语言、基于语音的槽位填充、基于口语查询的问答、基于音频的讲故事和语音音频协同推理textit等。研究了跨模态涌现能力的存在，并提出了一种新颖的少样本激活调整方法来激活 SALMONN 的此类能力。据我们所知，SALMONN 是该类型的第一个模型，可以被视为迈向具有通用听力能力的人工智能的一步。

InvGC: Robust Cross-Modal Retrieval by Inverse Graph Convolution
Authors Xiangru Jian, Yimu Wang
近几十年来，跨模态检索的显着进步主要是由视觉和语言建模的突破推动的。然而，最近的一项研究表明，作为表示退化问题，多模态数据表示倾向于聚集在有限的凸锥内，由于这些表示的不可分离性，这阻碍了检索性能。在我们的研究中，我们首先凭经验验证了多个跨模态基准和方法中表示退化问题的存在。接下来，为了解决这个问题，我们引入了一种称为 InvGC 的新颖方法，这是一种受图卷积和平均池化启发的后处理技术。具体来说，InvGC 定义数据集中的图拓扑，然后以减法方式应用图卷积。该方法通过增加数据点之间的距离来有效地分离表示。为了提高 InvGC 的效率和有效性，我们提出了一种先进的图拓扑 LocalAdj，其目的只是增加每个数据点与其最近邻居之间的距离。为了理解 InvGC 为何有效，我们提出了详细的理论分析，证明部署 InvGC 后召回率下限将会得到改善。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

这篇关于【AI视野·今日NLP 自然语言处理论文速览第六十期】Mon, 23 Oct 2023的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！