读《Multi-modal Graph Fusion for Named Entity Recognition with Targeted Visual Guidance》

本文主要是介绍读《Multi-modal Graph Fusion for Named Entity Recognition with Targeted Visual Guidance》，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

2021

摘要

主导的多模态命名实体识别(MNER)模型并没有充分利用不同模态语义单元之间的细粒度语义对应，这具有细化多模态表示学习的潜力。

引言

如何充分利用视觉信息是MNER的核心问题之一，它直接影响了模型的性能。
尝试：
（1）将整个图像编码为全局特征向量(图1(a))，可用于增强每个单词表示（月亮、内维斯和卡瓦略2018），或指导单词学习视觉感知表示(Lu等2018；张等2018)；（就是节点级分类那种实现方式，比如一张人脸图像整体得到一个嵌入）
（2）将整个图像平均分割成多个区域(图1(b))，并基于变换框架与文本序列交互(Yu等2020)。（就是图级实现的一种方式，类似超像素图块，ZSL还有ViT说的那个patch那种处理）
在这里插入图片描述
它们并没有充分利用输入句子-图像对中语义单元之间的细粒度语义对应
例如a图是隐式的全局信息
b图是包含了多个平均分割区域的局部信息，但它仍然是隐式的