【论文阅读】Multi-instance Learning with Discriminative Bag Mapping

2023-10-28 00:30

本文主要是介绍【论文阅读】Multi-instance Learning with Discriminative Bag Mapping,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

基本信息

· 题目:Multi-instance Learning with Discriminative Bag Mapping
· 会议:IEEE

摘要

目前,通过选择一个实例将一个包转化为一个新空间中的单个实例,主要是基于原始空间。但是基于原始空间的映射有一些缺陷,如:难以保证所选实例的识别能力。因此,允许一组实例共享一个标签,是解决学习中标签歧义问题的有效工具。本文提出了一种用于多示例学习的判别映射方法,旨在识别最佳实例,从而直接区分新映射空间中的包。

介绍

在有监督学习中,每一个训练样本都是一个带有类标签的实例;与有监督学习相比,多示例学习中的每一个训练样本则是一个含有多个实例的包,每个包都带有类标签。标签是分配给包的而不是给实例的。
若一个包是负包,那么该负包中的所有实例都是负的;但对于正包来说,包中至少有一个实例时正的。
现有的MIL方案主要分为两类:①改进传统的学习算法来解决标签歧义问题;②开发专门用于多示例学习的学习范式。但以上两种方案无法在包中含有大量实例的情况下呈现出优越的性能
因此,本文提出一种用于多示例学习的直接判别映射方法,旨在识别那些能够使包在新的映射空间中能够被明显区分的实例。
在这里插入图片描述

相关工作

当数据集较庞大时,算法需要处理大量的实例。在这种情况下,选择那些最具代表性的实例来代表包就成为了一个具有挑战性的问题。解决这类问题的一种新方法是:使用那些在包中选择的实例,并将MIL问题转换为标准的单实例学习问题。我们将这些方法称为“基于实例选择的MIL”。可以将它们分为两类:①基于实例选择的非包映射方法;②基于实例选择的包映射方法。

①非包映射方法

该方法的基本思想是:从每个包中选出一个或多个实例来表示整个包。直接将包标签映射给包中的所有实例,让所有实例来表示包。但由于包中大部分信息都被丢弃,这种方法往往面临信息丢失和分类性能下降的问题

②包映射方法

选择一组实例原型,将包映射到一个新的特征空间。

符合与算法框架

本文符号表如下:

符号含义
B B B训练集
n n n包数量
B i B_{i} Bi i i i个包
y i ∈ Y = { − 1 , + 1 } y_{i}∈Y=\left \{ -1,+1 \right \} yiY={1,+1}标签
X X X实例集
x i , j x_{i,j} xi,j i i i个包中的第 j j j个实例
p p p实例空间大小
P ⊆ X P\subseteq X PX判别实例池(Discriminative Instance Pool, DIP)
m m mDIP大小
B i ϕ = [ s ( B i , x 1 ϕ ) , ⋅ ⋅ ⋅ , s ( B i , x m ϕ ) ] B_{i}^{\phi}=[s(B_{i},x_{1}^{\phi}),···,s(B_{i},x_{m}^{\phi})] Biϕ=[s(Bi,x1ϕ)s(Bi,xmϕ)]包映射
s ( B i , x k ϕ ) s(B_{i},x_{k}^{\phi}) s(Bi,xkϕ) B i B_{i} Bi与映射后的实例 x k ϕ x_{k}^{\phi} xkϕ的相似度

一个包 B i B_{i} Bi包含许多实例,实例 x i , j x_{i,j} xi,j表示在第 i i i个包中的第 j j j个实例。用 y i = Y , Y = { − 1 , + 1 } y_{i}=Y,Y=\left \{ -1,+1\right \} yi=Y,Y={1,+1}来表示包 B i B_{i} Bi的标签。
在训练的过程中,所有的包 B i B_{i} Bi都通过discriminative instance pool(DIP)转换称为一个新的特征空间中的一个单实例 B i ϕ B_{i}^{\phi } Biϕ。我们将DIP通过 P P P来表示。
在测试过程中,先通过DIP将每一个包映射为特征空间中新的实例,然后利用训练好的分类器来预测最终的类标签。该过程中最关键的一部分就是找到最优的用于包映射的DIP(discriminative instance pool)

DIP(discriminative instance pool) Optimization

DIP优化目标为:使用一个实例选择矩阵 I p I_{p} Ip(一种对角矩阵, d i a g ( I p ) = d ( p ) diag(I_{p})=d(p) diag(Ip)=d(p) )来找到一个子集 P ∈ X P∈X PX。而 d ( p ) d(p) d(p)是一个启示向量。若 x i ∈ P x_{i}∈P xiP,那么 d ( P ) i = 1 d(P)_{i}=1 d(P)i=1,否则 d ( P ) i = 0 d(P)_{i}=0 d(P)i=0
我们定义 J ( P ) J(P) J(P)作为实例评估函数,用于评价子集 P P P的质量。表达式如下:
P ∗ = arg ⁡ max ⁡ J ( P ) s . t . ∣ P ∣ = m (1) P_{*}=\arg\max J(P)\ \ s.t.|P|=m\tag{1} P=argmaxJ(P)  s.t.P=m(1)
其中, ∣ ⋅ ∣ | \ ·\ |   表示实例集的基数,而 m m m为从实例集 X X X中选出的实例数量。

DIP评价标准

为了能够得到具有一定鉴别实例能力的DIP,引入以下两个规则:
bag mapping must-link:由于每一个包 B i B_{i} Bi都带有一个正或负类标签,因此DIP必须确保在另一个映射空间中的包 B i ϕ B_{i}^{\phi } Biϕ标签与包 B i B_{i} Bi标签一致;
bag mapping cannot-link:在映射空间中带有不同类别标签的包应该代表它们之间的差异;
DIP评价标准可以表示为:
J ( P ) = 1 2 ∑ i , j K P ( B i , B j ) Q i , j (2) J(P)=\frac{1}{2} {\textstyle \sum_{i,j}^{}}K_{P}(B_{i},B_{j})Q_{i,j}\tag{2} J(P)=21i,jKP(Bi,Bj)Qi,j(2)
其中, K P ( B i , B j ) K_{P}(B_{i},B_{j}) KP(Bi,Bj)表示通过DIP得到的新的映射空间中包 B i B_{i} Bi与包 B j B_{j} Bj之间的距离。 J ( P ) J(P) J(P)表示映射空间的区别程度。 K P ( B i , B j ) K_{P}(B_{i},B_{j}) KP(Bi,Bj)能够表示为:
K P ( B i , B j ) = ∣ ∣ I P B i ϕ x − I P B j ϕ x ∣ ∣ 2 (3) K_{P}(B_{i},B_{j})=||I_{P}B_{i}^{\phi_{x}} -I_{P}B_{j}^{\phi_{x}} ||^{2}\tag{3} KP(Bi,Bj)=IPBiϕxIPBjϕx2(3)
其中, B i ϕ x B_{i}^{\phi_{x}} Biϕx B i ϕ B_{i}^{\phi} Biϕ一样都使用了所有实例作为映射实例池。将标签嵌入矩阵 Q Q Q定义为:
Q i , j = { − 1 / ∣ A ∣ , y i y j = 1 1 / ∣ B ∣ , y i y j = − 1 (4) Q_{i,j}= \begin{cases} -1/|A|,y_{i}y_{j}=1\\ 1/|B|, y_{i}y_{j}=-1 \end{cases} \tag{4} Qi,j={1/A,yiyj=11/B,yiyj=1(4)
其中, A = { ( i , j ) ∣ y i y j = 1 } A=\left \{ (i,j)|y_{i}y_{j}=1 \right \} A={(i,j)yiyj=1}表示bag mapping must-link的包集; B = { ( i , j ) ∣ y i y j = − 1 } B=\left \{ (i,j)|y_{i}y_{j}=-1 \right \} B={(i,j)yiyj=1}表示bag mapping cannot-link的包集。
J ( P ) J(P) J(P)的推导过程如下:
在这里插入图片描述

其中, t r ( ⋅ ) tr(·) tr()表示矩阵迹算子, χ ϕ = [ B 1 ϕ x , ⋅ ⋅ ⋅ , B n ϕ x ] = [ ϕ 1 , ⋅ ⋅ ⋅ , ϕ p ] τ ∈ { R } p × n \chi_{\phi }=[B_{1}^{\phi _{x}},···,B_{n}^{\phi _{x}}]=[\phi _{1},···,\phi _{p}]^{\tau }∈\left \{ ℝ \right \}^{p\times n} χϕ=[B1ϕx,,Bnϕx]=[ϕ1,,ϕp]τ{R}p×n n n n代表包的大小。 D D D是对角矩阵,它由矩阵 Q Q Q产生。 L L L是拉普拉斯(Laplacian)矩阵,由矩阵 Q Q Q产生, L L L可以表示为 L = [ L i , j ] n × n = D − Q L=[L_{i,j}]^{n×n}=D-Q L=[Li,j]n×n=DQ。通过函数 f ( x k ϕ , L ) f(x_{k}^{\phi},L) f(xkϕ,L)来表示 ϕ k τ L ϕ k \phi_{k}^{\tau }L\phi_{k} ϕkτLϕk
最开始的优化问题可以转化为求使函数 f ( x k ϕ , L ) f(x_{k}^{\phi},L) f(xkϕ,L)得到最大和的实例映射集合 P P P
m a x P ⊆ χ ∑ x k ϕ ⊆ P f ( x k ϕ , L ) s . t . ∣ P ∣ = m (6) max_{P\subseteq\chi } {\textstyle \sum_{x_{k}^{\phi}\subseteq P}^{}} f(x_{k}^{\phi },L)\ \ \ \ s.t.|P|=m\tag{6} maxPχxkϕPf(xkϕ,L)    s.t.P=m(6)
DIP算法流程如图所示:
在这里插入图片描述
算法以一个空实例集 P = ∅ P=∅ P=以及最小分数 τ = 0 \tau=0 τ=0开展。首先计算标签嵌入矩阵 Q Q Q以及与之相关联的拉普拉斯矩阵 L L L。然后通过实例 x k x_{k} xk与拉普拉斯矩阵 L L L计算函数 f ( x k , L ) f(x_{k},L) f(xk,L)的值。若函数 f ( x k , L ) f(x_{k},L) f(xk,L)的值比最小识别分数值更大,那么实例 x k x_{k} xk则被选为实例集 P P P中的一员。否则,倘若实例集 P P P溢出,那么在实例集 P P P中识别分数值最小的那个实例会从 P P P中移出。循环持续推荐直到产生最终的最佳识别实例池 P P P

通过DIP实现包映射

一旦使用选择好的实例构建DIP,每个包都需要映射到新空间中的单个实例。给定一个DIP判别实例池 P P P,该DIP中有 m m m个实例,包 B i B_{i} Bi能够映射为一个实例 B i ϕ = [ s ( B i , x 1 ϕ ) , ⋅ ⋅ ⋅ , s ( B i , x m ϕ ) ] B_{i}^{\phi}=[s(B_{i},x_{1}^{\phi}),···,s(B_{i},x_{m}^{\phi})] Biϕ=[s(Bi,x1ϕ)s(Bi,xmϕ)],而 s ( B i , x k ϕ ) s(B_{i},x_{k}^{\phi}) s(Bi,xkϕ)代表包 B i B_{i} Bi与示例 x k ϕ x_{k}^{\phi} xkϕ之间的相似度,表示为:
s ( B i , x k ϕ ) = m a x x i , j ∈ B i exp ⁡ ( − ∣ ∣ x i , j − x k ϕ ∣ ∣ 2 / σ 2 ) (7) s(B_{i},x_{k}^{\phi})=max_{x_{i,j}∈B_{i}}\ \exp (-||x_{i,j}-x_{k}^{\phi}||^{2}/\sigma ^{2})\tag{7} s(Bi,xkϕ)=maxxi,jBi exp(xi,jxkϕ2/σ2)(7)
其中, x i , j x_{i,j} xi,j代表在第 i i i个包 B i B_{i} Bi中的第 j j j个实例, σ \sigma σ为预设的比例因子。通过优化的DIP,每一个包 B i ∈ B B_{i}∈B BiB都映射为 B i ϕ B_{i}^{\phi} Biϕ
映射算法又分为两类:①Global DiscriminativeBag Mapping;②Local Discriminative Bag Mapping

①Global DiscriminativeBag Mapping

这种映射方法是通过计算所有包中的每一个实例到DIP中的前 m m m个实例间的距离进行计算。
·aMILGDM:使用所有的训练集包来产生全局DIP
·pMILGDM:仅使用正包

② Local Discriminative Bag Mapping

这种映射方法计算了包中的每一个实例并选出一个具有最高识别分数的实例。
·aMILLDM:从每一个包中找出具有最高识别分数的实例
·pMILLDM:从每一个正包中找出具有最高识别分数的实例

这篇关于【论文阅读】Multi-instance Learning with Discriminative Bag Mapping的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/289451

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

2014 Multi-University Training Contest 8小记

1002 计算几何 最大的速度才可能拥有无限的面积。 最大的速度的点 求凸包, 凸包上的点( 注意不是端点 ) 才拥有无限的面积 注意 :  凸包上如果有重点则不满足。 另外最大的速度为0也不行的。 int cmp(double x){if(fabs(x) < 1e-8) return 0 ;if(x > 0) return 1 ;return -1 ;}struct poin

2014 Multi-University Training Contest 7小记

1003   数学 , 先暴力再解方程。 在b进制下是个2 , 3 位数的 大概是10000进制以上 。这部分解方程 2-10000 直接暴力 typedef long long LL ;LL n ;int ok(int b){LL m = n ;int c ;while(m){c = m % b ;if(c == 3 || c == 4 || c == 5 ||

2014 Multi-University Training Contest 6小记

1003  贪心 对于111...10....000 这样的序列,  a 为1的个数,b为0的个数,易得当 x= a / (a + b) 时 f最小。 讲串分成若干段  1..10..0   ,  1..10..0 ,  要满足x非递减 。  对于 xi > xi+1  这样的合并 即可。 const int maxn = 100008 ;struct Node{int

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

软件架构模式:5 分钟阅读

原文: https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式:5 分钟阅读 当有人潜入软件工程世界时,有一天他需要学习软件架构模式的基础知识。当我刚接触编码时,我不知道从哪里获得简要介绍现有架构模式的资源,这样它就不会太详细和混乱,而是非常抽象和易