Similarity-Preserving Knowledge Distillation

2024-08-24 17:58

本文主要是介绍Similarity-Preserving Knowledge Distillation,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Motivation

下图可以发现,语义相似的输入会产生相似的激活。这个非常好理解,这个C维的特征向量可以代表该输入的信息

因此本文根据该观察提出了一个新的蒸馏loss,即一对输入送到teacher中产生的特征向量很相似,那么送到student中产生的特征向量也应该很相似,反义不相似的话同样在student也应该不相似。

该loss被称为Similarity-preserving,这样student不用去mimic teacher的特征空间,而只用在自己的特征空间保持成对的相似度就好
在这里插入图片描述
横坐标:0-1000为1000个类别为0的图片,1000-2000为1000个类别为1的图片,同理以此类推

纵坐标:WideResNet-16-2在CIFAR10test集上最后一个卷积层在channel上平均激活,WHC → C维向量(图中是采样了部分通道)

Method

在这里插入图片描述
Qs: (b, chw),Gs: (b, b),然后进行L2 norm

以下为4个batch的可视化,每个batch包含128个样本

可以看到每个batch之间的相似度在student和teacher表现是一致的
在这里插入图片描述
在这里插入图片描述
Similarity-preserving Loss:

l,l’ 为对应的层,每个block的最后一层
在这里插入图片描述
在这里插入图片描述
传统的KD
在这里插入图片描述
优势:

  • 不用mimic teacher的特征空间,当teacher训练的资源已不可获取时,这时只用模仿teacher在目标域样本之间预测的相似度

扩展应用:
和pretrain finetuning联系起来做Transfer learning

  • 用已有的模型做pretrain
  • 然后finetuning时用CE 和 SP loss

semisupervised

  • 有label的地方用CE
  • 无label的地方用SP

Experiments

Win:loss,和AT的胜负比
在这里插入图片描述
在这里插入图片描述

这篇关于Similarity-Preserving Knowledge Distillation的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1103199

相关文章

[论文笔记]Circle Loss: A Unified Perspective of Pair Similarity Optimization

引言 为了理解CoSENT的loss,今天来读一下Circle Loss: A Unified Perspective of Pair Similarity Optimization。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 这篇论文从对深度特征学习的成对相似度优化角度出发,旨在最大化同类之间的相似度 s p s_p s

知识图谱(knowledge graph)——概述

知识图谱总结 概念技术链概括通用知识图谱和垂直领域知识图谱国内外开放知识图谱 技术链详解知识获取知识融合知识表示知识推理知识存储 知识图谱构建流程其他挑战跨语言知识抽取跨语言知识链接 思考参考 概念 知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其关系。是融合了认知计算、知识表示与推理、信息检索与抽取、自然语言处理、Web技术、机器学习与大数据

知识图谱(knowledge graph)——RDF(Resource Description Framework)

RDF的基本单元是三元组(triple) 每个三元组是(主语 谓语 宾语) 这样的元组tuple。主谓宾的取值称为"资源"(Resource, 也就是RDF里的R) 资源可以是一个网址(URI),一个字符串或数 字(严格来讲都是带类型的字符串,称为 literal),或者一个“空节点”(blank node)。 有两种特殊类型的资源。rdfs:Class代表类。 rdf:Property代

NLP-文本匹配-2016:SiamseNet【Learning text similarity with siamese recurrent networks】

NLP-文本匹配-2016:SiamseNet【Learning text similarity with siamese recurrent networks】

知识图谱 Knowledge Graph

笔记链接:  【有道云笔记】Knowledge Graphhttps://note.youdao.com/s/KzaCxBPs无须登录即可直接查看,用于个人学习。 参考知乎用户@非洲的兔子

优化数据以提升大模型RAG性能思路:Meta Knowledge for RAG的一个实现思路

传统的RAG系统通过检索然后阅读框架来增强LLMs,但存在一些挑战,如知识库文档的噪声、缺乏人工标注信息、长文档的编码问题以及用户查询的模糊性。 因此可以采用数据为中心的增强方法,我们可以看看最近的一个工作。 一、Meta Knowledge for RAG 最近的工作,《Meta Knowledge for Retrieval Augmented Large Language Models

little knowledge及errno的一些错误定义

select()机制中提供一fd_set的数据结构,实际上是一long类型的数组,每一个数组元素都能与一打开的文件句柄(不管是socket句柄,还是其他文件或命名管道或设备句柄)建立联系,建立联系的工作由程序员完成,当调用select()时,由内核根据IO状态修改fd_set的内容,由此来通知执行了select()的进程哪一socket或文件发生了可读或可写事件。   LINUX 下宏定义

论文笔记:GEO-BLEU: Similarity Measure for Geospatial Sequences

22 sigspatial 1 intro 提出了一种空间轨迹相似性度量的方法比较了两种传统相似度度量的不足 DTW 基本特征是它完全对齐序列以进行测量,而不考虑它们之间共享的局部特征这适用于完全对齐的序列,但不适用于逐步对齐没有太多意义的序列BLEU 适用于不完全对齐的序列将序列中的地点视为单词,它们的连续组合视为地理空间𝑛-gram,应用这种方法基于局部特征评估地理空间轨迹的相似性然而,

【888题竞赛篇】第六题,2023ICPC济南-来自知识的礼物(Gifts from Knowledge)

这里写自定义目录标题 更多精彩内容256题算法特训课,帮你斩获大厂60W年薪offer 原题2023ICPC济南真题来自知识的礼物B站动画详解 问题分析思路分析算法实现代码详解标准代码程序C++代码Java代码Python代码Javascript代码 复杂度分析时间复杂度空间复杂度 总结 更多精彩内容 这里是带你游历编程世界的Dashcoding编程社,我是Dash/北航硕士/

VCTP(Visual Chain-of-Thought Prompting for Knowledge-Based Visual Reasoning)论文

目录 摘要介绍相关工作方法总体模型细节 实验 摘要 知识型视觉推理仍然是一个艰巨的任务,因为它不仅要求机器从视觉场景中解释概念和关系,而且还需要将它们与外部世界知识联系起来,对开放世界问题进行推理链。然而,以前的工作将视觉感知和基于语言的推理视为两个独立的模块,在推理的所有阶段都没有同时关注这两个模块。为此,我们提出了一种知识型推理的视觉思维链提示(VCTP),它涉及视觉内容与自