读《Multi-modal Graph Fusion for Named Entity Recognition with Targeted Visual Guidance》

本文主要是介绍读《Multi-modal Graph Fusion for Named Entity Recognition with Targeted Visual Guidance》,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

2021

摘要

主导的多模态命名实体识别(MNER)模型并没有充分利用不同模态语义单元之间的细粒度语义对应,这具有细化多模态表示学习的潜力。

引言

如何充分利用视觉信息是MNER的核心问题之一,它直接影响了模型的性能。
尝试:
(1)将整个图像编码为全局特征向量(图1(a)),可用于增强每个单词表示(月亮、内维斯和卡瓦略2018),或指导单词学习视觉感知表示(Lu等2018;张等2018);(就是节点级分类那种实现方式,比如一张人脸图像整体得到一个嵌入)
(2)将整个图像平均分割成多个区域(图1(b)),并基于变换框架与文本序列交互(Yu等2020)。(就是图级实现的一种方式,类似超像素图块,ZSL还有ViT说的那个patch那种处理)
在这里插入图片描述
它们并没有充分利用输入句子-图像对中语义单元之间的细粒度语义对应
例如a图是隐式的全局信息
b图是包含了多个平均分割区域的局部信息,但它仍然是隐式的

这两种信息将“门”的线索传播到文本表征上是不同的。这一重要线索的开发失败可能是由于两大挑战:1)如何构建一个统一的表示来弥合两种不同模式之间的语义差距;2)如何实现基于统一表示的语义交互。

于是用了c(这种目标检测就有点任务特定了,是图像中明确可以boundingbox的那种)

方法

构图

节点

文本还是单词做节点
视觉就是bounding box

连边

intra节点全连接,inter节点是对应同一个东西的连起来

融合

intra自注意力,inter门控(和a novel那篇一毛一样)

这篇关于读《Multi-modal Graph Fusion for Named Entity Recognition with Targeted Visual Guidance》的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/327007

相关文章

如何在Visual Studio中调试.NET源码

今天偶然在看别人代码时,发现在他的代码里使用了Any判断List<T>是否为空。 我一般的做法是先判断是否为null,再判断Count。 看了一下Count的源码如下: 1 [__DynamicallyInvokable]2 public int Count3 {4 [__DynamicallyInvokable]5 get

2014 Multi-University Training Contest 8小记

1002 计算几何 最大的速度才可能拥有无限的面积。 最大的速度的点 求凸包, 凸包上的点( 注意不是端点 ) 才拥有无限的面积 注意 :  凸包上如果有重点则不满足。 另外最大的速度为0也不行的。 int cmp(double x){if(fabs(x) < 1e-8) return 0 ;if(x > 0) return 1 ;return -1 ;}struct poin

2014 Multi-University Training Contest 7小记

1003   数学 , 先暴力再解方程。 在b进制下是个2 , 3 位数的 大概是10000进制以上 。这部分解方程 2-10000 直接暴力 typedef long long LL ;LL n ;int ok(int b){LL m = n ;int c ;while(m){c = m % b ;if(c == 3 || c == 4 || c == 5 ||

2014 Multi-University Training Contest 6小记

1003  贪心 对于111...10....000 这样的序列,  a 为1的个数,b为0的个数,易得当 x= a / (a + b) 时 f最小。 讲串分成若干段  1..10..0   ,  1..10..0 ,  要满足x非递减 。  对于 xi > xi+1  这样的合并 即可。 const int maxn = 100008 ;struct Node{int

图神经网络框架DGL实现Graph Attention Network (GAT)笔记

参考列表: [1]深入理解图注意力机制 [2]DGL官方学习教程一 ——基础操作&消息传递 [3]Cora数据集介绍+python读取 一、DGL实现GAT分类机器学习论文 程序摘自[1],该程序实现了利用图神经网络框架——DGL,实现图注意网络(GAT)。应用demo为对机器学习论文数据集——Cora,对论文所属类别进行分类。(下图摘自[3]) 1. 程序 Ubuntu:18.04

VMware Fusion Pro 13 Mac版虚拟机 安装Win11系统教程

Mac分享吧 文章目录 Win11安装完成,软件打开效果一、VMware安装Windows11虚拟机1️⃣:准备镜像2️⃣:创建虚拟机3️⃣:虚拟机设置4️⃣:安装虚拟机5️⃣:解决连不上网问题 安装完成!!! Win11安装完成,软件打开效果 一、VMware安装Windows11虚拟机 首先确保自己的mac开启了网络共享。不然虚拟机连不上👀的 1️⃣:准备镜像

SIGMOD-24概览Part7: Industry Session (Graph Data Management)

👇BG3: A Cost Effective and I/O Efficient Graph Database in ByteDance 🏛机构:字节 ➡️领域: Information systems → Data management systemsStorage management 📚摘要:介绍了字节新提出的ByteGraph 3.0(BG3)模型,用来处理大规模图结构数据 背景

神经网络训练不起来怎么办(零)| General Guidance

摘要:模型性能不理想时,如何判断 Model Bias, Optimization, Overfitting 等问题,并以此着手优化模型。在这个分析过程中,我们可以对Function Set,模型弹性有直观的理解。关键词:模型性能,Model Bias, Optimization, Overfitting。 零,领域背景 如果我们的模型表现较差,那么我们往往需要根据 Training l

jupyter在加载pkl文件时报错ModuleNotFoundError: No module named 'pandas.core.internals.managers'; '的解决方法

笔者当看到这个错误的时候一脸懵逼,在pycharm上正常运行的code 放在jupyter就不成了,于是就研究一翻。 一开始以为自己的pkl文件有问题,研究重点放在这里,最后发现不是。 然后取搜索pycharm和jupyter下的python的\Lib\site-packages\pandas\core\internals有什么不同 发现jupyter下没有pandas\core\intern

【Visual Studio 报错】未加载 wntdll.pdb(一种可行的解决办法)

调试程序时,会出现下面这个报错 分析原因: 出现未加载 wntdll.pdb 报错大概率是你的指针使用错误 ,比如使用野指针、越界访问、或者堆区空间释放方式错误等。 这里以 堆区空间释放方式错误 为例子 1、堆区开辟的数组空间使用 delete 释放 // 堆区开辟的数组空间使用 delete 释放int* p = new int[10];delete p; 正