RBF-Softmax:让模型学到更具表达能力的类别表示

2024-06-21 08:38

本文主要是介绍RBF-Softmax:让模型学到更具表达能力的类别表示,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”


导读

这是一篇商汤科技的ECCV2020的论文,用一种非常优雅的方法解决了传统softmax在训练分类时的两个问题,并在多个数据集上取得了很好的效果,代码已开源。

公众号后台回复“RBF”,下载已打包好的论文和代码。

RBF-Softmax: Learning Deep Representative Prototypes with Radial Basis Function Softmax

摘要

交叉熵是深度学习中非常常用的一种损失,通过交叉熵学到的特征表示会有比较大的类内的多样性。因为传统的softmax损失优化的是类内和类间的差异的最大化,也就是类内和类间的距离(logits)的差别的最大化,没有办法得到表示类别的向量表示来对类内距离进行正则化。之前的方法都是想办法增加类内的内聚性,而忽视了不同的类别之间的关系。本文提出了Radial Basis Function(RBF)距离来代替原来的softmax中的內积,这样可以自适应的给类内和类间距离施加正则化,可以得到更好的表示类别的向量,从而提高性能。

1. 介绍

在使用交叉熵损失进行分类的时候,一般我们会将样本通过一个卷积神经网络,得到样本的特征表示,然后再来决定样本的类别标签。确定类别标签的时候,我们先计算样本表示向量和表示类别的向量的距离,得到logits,一般来说,距离的度量方式包括內积,余弦以及欧式距离,都可以用来得到logits。在很多现有的方法中,得到的logits会进行softmax的归一化,得到每个类别的概率。

欧式距离是一种很常用的相似性度量方法,而且具有很清晰的几何意义。但是,现有的基于softmax的方法并不是直接去优化欧式距离,而是优化类内和类间的相对差别。对比损失和三元组损失则是直接去优化欧式距离,也得到了很好的效果,但是需要比较麻烦的样本挖掘方法,而且比较不容易收敛,所以,无法完全取代传统的softmax损失。

本文的贡献有:

1、讨论了传统的softmax的主要缺陷。

2、提出了RBF softmax的方法来解决传统softmax的问题。

3、通过实验证明了RBF softmax在分类上的有效性。

在mnist数据集中各种softmax的特征可视化如下:

2. 方法

2.1 softmax交叉熵损失以及Prototype的分析

传统的softmax交叉熵损失的计算方式为:

其中,fij表示样本xi与类别特征Wj的相似度,当j=yi时,表示的就是xi与其对应的类别的特征Wj的相似度,也就是类内的sample-prototype距离,在文中我们叫做类内logit。对应的,j≠yi的时候,叫做类间logit。在度量相似度的时候,常常会用內积和欧式距离。

在softmax损失中,prototype可以看做是一个特定类别的所有样本的代表,直觉上,这个理想的prototype应该在该类别的所有样本的特征向量的几何中心上。因此,prototype需要非常显著的表达能力,包括两个方面:

1、Prototype应该具有显著的区别不同类别的样本的能力。类间的距离需要大于类内的距离。

2、Prototype应该可以显示出类别之间的关系,也就是说相似的类别应该比差别明显的类别靠的更近。

图2中描述了这两个方面:

图2,从a中可以看到,黑点是类别的prototype,各种颜色的圆点是样本的特征,相似的类别的特征和prototype是可分的,但是距离相比明显有区别的类别要更靠近一些。b是训练刚开始的阶段。c是训练的后期。

最后的特征分布非常依赖于使用的损失函数。softmax的logit的计算方法会导致两种缺陷。

训练的开始会有损失分配的偏差。因为刚开始训练的时候,特征xi和prototype Wyj并不能很好的表示他们之间的相似度,我们希望给样本的损失一些约束,以免受到离群点较大的负面影响。如图2(b)。表1显示了在训练开始的时候,样本的类内距离具有很大的多样性。最终,这种有偏差的损失分配会导致类别的prototype之间的显著的偏差,并影响真实的特征分布。

训练后期的大类内sample-prototype距离。在训练的后期,softmax也会有问题。如图2(c)所示,当一个样本的类间sample-prototype距离显著大于其类内的sample-prototype距离的时候,损失会很小,即便此时类内的logit很大。但是,我们希望能有个较大的loss来让这个样本可以更加靠近其类别的prototype。

2.2 RBF-Softmax损失函数

为了解决上面的两个问题,我们提出了一个距离,叫做Radial Basis Function kernel distance(RBF-score),用来度量xi和Wj之间的相似度:

其中,dij是xi和wj之间的欧式距离,γ是超参数。相比于无界的內积和欧式距离,RBF-score在欧式距离变大的时候会衰减,其值域是0到1,RBF-score很好的度量了xi和wj之间的相似度,可以用作softmax中的logit。我们这样定义RBF-Softmax:

其中,s是超参数,用来扩展RBF-score的尺度。

我们再看下RBF-Softmax是如何克服上面说的两个问题的。

刚开始训练的时候,我们需要平衡类内的logits,而开始的时候,类内的logits往往会比较大,我们通过RBF kernel可以将非常大的欧式距离映射成相对小的RBF-score,这样就显著的减小了类内的多样性。这样的话,训练的开始阶段,类内的偏差就会显著的变小。另一方面,在训练的后期,传统的softmax给出的概率很容易就可以到1,但是用了RBF的概率很难到1,这样可以持续的进行优化。

超参数的影响。我们看下不同的超参数γ,s对训练的影响,如下图。

图3(a)中,当γ变大的时候,RBF-score也会变大,样本及其对应的prototype的相似度也会变大,优化任务变得简单。图3(b)(c)显示了不同的s下将欧式距离和RBF-score映射到概率的表现。s控制了概率的范围以及分类任务的难易程度:对于固定的欧式距离和RBF-score,小的s导致了概率的狭窄的范围,使得分类任务变得困难。从梯度的角度也能得到相似的结论,RBF-score和s决定了梯度的大小。

3. 实验

3.1 Prototype的探索实验

图4显示了WordNet上的不同类别的prototype的相似度矩阵:

很明显,RBF-Softmax得到的相似度矩阵和WordNet的相似度矩阵更加类似。

表2显示了两种不同的指标:

3.2 MNIST上的探索实验

不同超参数下的准确率。

不同loss的准确率:

3.3 CIFAR-10/100上的实验

不同损失函数的准确率:

3.4 ImageNet的实验

请长按或扫描二维码关注本公众号

喜欢的话,请给我个好看吧

这篇关于RBF-Softmax:让模型学到更具表达能力的类别表示的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1080734

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者

线性因子模型 - 独立分量分析(ICA)篇

序言 线性因子模型是数据分析与机器学习中的一类重要模型,它们通过引入潜变量( latent variables \text{latent variables} latent variables)来更好地表征数据。其中,独立分量分析( ICA \text{ICA} ICA)作为线性因子模型的一种,以其独特的视角和广泛的应用领域而备受关注。 ICA \text{ICA} ICA旨在将观察到的复杂信号