Re53：读论文 How Can We Know What Language Models Know?

2023-11-29 07:01

文章标签 论文 models language know re53

本文主要是介绍Re53：读论文 How Can We Know What Language Models Know?，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

诸神缄默不语-个人CSDN博文目录
诸神缄默不语的论文阅读笔记和分类

论文名称：How Can We Know What Language Models Know?

ArXiv网址：https://arxiv.org/abs/1911.12543

官方GitHub项目（prompt之类的都有）：https://github.com/jzbjyb/LPAQA

本文是2020年TACL论文，作者来自卡耐基梅隆大学和博世北美研究所。

本文关注探索LM中蕴含的知识。以前已经有工作用完形填空的方式来探查知识（Obama is a __ by profession），但是这些填空模版（prompt）都是手工做的，因此可能是sub-optimal的（在上一篇论文最后也提及了），不能充分发挥LM的能力。
本文的解决方案是自动挖掘prompt（远程监督、回译、集成）

这篇工作的实验真的多，这也太能做了。

文章目录

1. 探查知识的方案
2. 实验
- 1. 数据集
- 2. LM
- 3. baseline
- 4. 实验设置
- 5. 主实验结果
- 6. 实验分析
- - Prediction Consistency by Prompt
  - POS-based Analysis
  - Cross-model Consistency
  - Linear vs. Log-linear Combination
- 7. 失败trick集合

1. 探查知识的方案

在这里插入图片描述

从数据库中获取知识是deterministic的，但从LM中获取知识（完形填空）是不可靠的。
本文用的都是双向LM，做填空题的那种。

mining-based methods：远程监督：从维基百科中找三元组出现的句子。
1. 方法一：Middle-word Prompts（subject prompt object）
2. 方法二：Dependency-based Prompts（句法分析→subject和object之间的依存路径）
  
  （句法分析这块我也不懂总之大概是这么个意思吧）
paraphrasing-based methods：对人工或挖掘得到的种子prompt进行回译
挑选和集成prompt
1. Top-1 Prompt Selection：选择在训练集上准确率最高的prompt（这个准确率的公式定义比较复杂，但是反正就这个prompt对应的关系里object预测正确的占所有样本的比例）
2. Rank-based Ensemble：top-K概率求和
3. Optimized Ensemble：大意是说对每个关系的T个prompt分别训练权重

这篇paper里面还提及了BERT跟LM的标准定义严格来说不一样这一茬：
在这里插入图片描述
感觉现在已经没人在乎了=== 随便吧==

2. 实验

1. 数据集

在这里插入图片描述

2. LM

BERT-base
BERT-large

增强了外部的实体表征：
ERNIE
Know-Bert

3. baseline

Majority
Man：手工prompt
Mine
Mine+Man
Mine+Para
Man+Para
TopK：求平均
Opti.：加权平均
Oracle：所有prompt中有一个能预测正确，就算LM知道这个知识

4. 实验设置

mine 40个prompts
回译7个prompts

清洗噪音prompts

Adam
batch size: 32

5. 主实验结果

评估指标：micro-averaged accuracy

在这里插入图片描述

与手工prompt相比，效果得到了提升：
在这里插入图片描述

集成权重：
在这里插入图片描述

K的选择：
在这里插入图片描述

prompt做轻微修改也能改变效果：
在这里插入图片描述

两种远程监督方案的对比：
在这里插入图片描述

不同LM的实验结果：
在这里插入图片描述

在LAMA-HUN（一个比LAMA更难的benchmark）上的表现：
在这里插入图片描述

在Google-RE上的表现：
在这里插入图片描述

6. 实验分析

Prediction Consistency by Prompt

在这里插入图片描述
divergence是两个prompt预测结果不同的程度：

皮尔森相关系数是0.25，说明编辑距离和divergence之间确实存在弱相关性（prompt差别越大，预测结果差别越大）

POS-based Analysis

在这里插入图片描述

在这里插入图片描述
用排名分布而不是准确率分布，在脚注解释了一下是因为不同关系的准确率的量级不同

Cross-model Consistency

检测prompts能不能跨模型通用

在这里插入图片描述

在这里插入图片描述

Linear vs. Log-linear Combination

求和的权重

在这里插入图片描述

7. 失败trick集合

这块真实诚啊

LM-aware Prompt Generation
Forward and Backward Probabilities

这篇关于Re53：读论文 How Can We Know What Language Models Know?的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/431890。 23002807@qq.com

相关文章

AI hospital 论文Idea

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境，人类医生（即医学学习者）可以在其中与患者代理进行医学

阅读更多...

论文翻译：arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

论文翻译：arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染：一项综述文章目录大规模语言模型的基准数据污染：一项综述摘要1 引言摘要大规模语言模型（LLMs），如GPT-4、Claude-3和Gemini的快

阅读更多...

论文阅读笔记: Segment Anything

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

阅读更多...

论文翻译：ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

论文翻译：ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中文章目录验证测试集污染在黑盒语言模型中摘要1 引言摘要大型语言模型是在大量互联网数据上训练的，这引发了人们的担忧和猜测，即它们可能已

阅读更多...

OmniGlue论文详解（特征匹配）

OmniGlue论文详解（特征匹配）

OmniGlue论文详解（特征匹配）摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

阅读更多...

BERT 论文逐段精读【论文精读】

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型，提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练，提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的？使用了哪些 NLP 已有的技术和思想？哪些是 BERT 的创新？ 1标题 + 作者 BERT: Pre-trainin

阅读更多...

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。为了简单，下文中以翻译的口吻记录，比如替换"作者"为"我们"。大语言模型已被广泛采用，但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程，用于Transformer中的前馈和注意力投影层，这可以将推理所需

阅读更多...

UML- 统一建模语言（Unified Modeling Language）创建项目的序列图及类图

UML- 统一建模语言（Unified Modeling Language）创建项目的序列图及类图

陈科肇 ============= 1.主要模型在UML系统开发中有三个主要的模型：功能模型：从用户的角度展示系统的功能，包括用例图。对象模型：采用对象、属性、操作、关联等概念展示系统的结构和基础，包括类图、对象图、包图。动态模型：展现系统的内部行为。包括序列图、活动图、状态图。因为要创建个人空间项目并不是一个很大的项目，我这里只须关注两种图的创建就可以了，而在开始创建UML图

阅读更多...

速通GPT-3：Language Models are Few-Shot Learners全文解读

速通GPT-3：Language Models are Few-Shot Learners全文解读

文章目录论文实验总览1. 任务设置与测试策略2. 任务类别3. 关键实验结果4. 数据污染与实验局限性5. 总结与贡献 Abstract1. 概括2. 具体分析3. 摘要全文翻译4. 为什么不需要梯度更新或微调⭐ Introduction1. 概括2. 具体分析3. 进一步分析 Approach1. 概括2. 具体分析3. 进一步分析 Results1. 概括2. 具体分析2.1 语言模型

阅读更多...

2024 年高教社杯全国大学生数学建模竞赛 C 题农作物的种植策略参考论文无水印

2024 年高教社杯全国大学生数学建模竞赛 C 题农作物的种植策略参考论文无水印

持续更新中，2024年数学建模比赛思路代码论文都会发布到专栏内，只需订阅一次！完整论文+代码+数据结果链接在文末！订阅后可查看参考论文文件第一问 1.1 问题重述这个问题围绕的是华北山区的某乡村，在有限的耕地条件下，如何制定最优的农作物种植策略。乡村有 34 块露天耕地和 20 个大棚，种植条件包括粮食作物、蔬菜、水稻和食用菌。除了要考虑地块的面积、种植季节等，还要确保

阅读更多...