⌈ 传知代码 ⌋ 多模态COGMEN详解

本文主要是介绍⌈ 传知代码 ⌋ 多模态COGMEN详解，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

💛前情提要💛

本文是传知代码平台中的相关前沿知识与技术的分享~

接下来我们即将进入一个全新的空间，对技术有一个全新的视角~

本文所涉及所有资源均在传知代码平台可获取

以下的内容一定会让你对AI 赋能时代有一个颠覆性的认识哦！！！

以下内容干货满满，跟上步伐吧~

📌导航小助手📌

💡本章重点
🍞一. 概述
🍞二. 论文模型框架
🍞三. 演示效果
🍞四. 核心逻辑
🫓总结

💡本章重点

多模态COGMEN详解

🍞一. 概述

情绪是人类行动的一个固有部分，因此，开发能够理解和识别人类情绪的人工智能系统势在必行。在涉及不同人的对话中，一个人的情绪会受到其他说话者的言语和他们自己在言语中的情绪状态的影响。

在本文中，我们提出了基于 COntex- tualized Graph Neural Network的多模态情感识别COGMEN）系统，该系统利用了本地信息（即说话人之间的内/外依赖性）和全局信息（上下文）。

建议的模型使用基于图谱神经网络（GNN) 的架构来模拟对话中的复杂关系（本地和全局信息）。

我们的模型在IEMOCAP和MOSEI数据集上给出了最先进的（SOTA）结果，详细的消融实验显示了在两个层面上对信息进行建模的重要性

🍞二. 论文模型框架

在这里插入图片描述
图2显示了详细的体系结构。输入的话语作为语境提取器模块的输入，该模块负责捕获全局语境。语境提取器为每个话语(utterance)提取的特征形成了一个基于说话人之间交互的图(Graph Formation)。该图作为Relational - GCN的输入，然后是graph transformer，graph transformer使用形成的图来捕捉话语之间的内部和内部关系。最后，作为情感分类器的两个线性层使用所有话语获得的特征来预测相应的情感。

特征融合的方式：

简单的concat,论文运用了最简单的融合方式，有在尝试别的融合方式

在这里插入图片描述
transfomer层是提取一段对话中，不同语句之间的信息

在这里插入图片描述
经过一层transformer之后，融合了信息，就开始建图，进行图学习

在这里插入图片描述
图学习分别进行了图卷积以及，图transformer，图学习的意义在于，更好的捕捉对话中这种一来一回的关系，来融合来自不同短语的情感信息。

最后链接一个分类器就结束了

🍞三. 演示效果

在这里插入图片描述

🍞四. 核心逻辑

##transformer层：def forward(self, text_len_tensor, text_tensor):if self.use_transformer:rnn_out = self.transformer_encoder(text_tensor)rnn_out = self.transformer_out(rnn_out)else:packed = pack_padded_sequence(text_tensor, text_len_tensor, batch_first=True, enforce_sorted=False)rnn_out, (_, _) = self.rnn(packed, None)rnn_out, _ = pad_packed_sequence(rnn_out, batch_first=True)return rnn_out##图学习层class GNN(nn.Module):def __init__(self, g_dim, h1_dim, h2_dim, args):super(GNN, self).__init__()self.num_relations = 2 * args.n_speakers ** 2self.conv1 = RGCNConv(g_dim, h1_dim, self.num_relations)self.conv2 = TransformerConv(h1_dim, h2_dim, heads=args.gnn_nheads, concat=True)self.bn = nn.BatchNorm1d(h2_dim * args.gnn_nheads)def forward(self, node_features, edge_index, edge_type):x = self.conv1(node_features, edge_index, edge_type)x = nn.functional.leaky_relu(self.bn(self.conv2(x, edge_index)))return x
##分类器：def forward(self, h, text_len_tensor):if self.args.dataset == "mosei" and self.args.emotion == "multilabel":if self.args.use_highway:h = self.highway(h)hidden = self.drop(F.relu(self.lin1(h)))scores = self.lin2(hidden)# y_hat = torch.sigmoid(scores) > 0.5y_hat = scores > 0return y_hatlog_prob = self.get_prob(h, text_len_tensor)y_hat = torch.argmax(log_prob, dim=-1)return y_hat

使用方式

处理数据

python preprocess.py --dataset=“iemocap_4”

训练模型

python train.py --dataset=“iemocap_4” --modalities=“atv” --from_begin --epochs=55

测试模型

python eval.py --dataset=“iemocap_4” --modalities=“atv”

🫓总结

综上，我们基本了解了“一项全新的技术啦” 🍭 ~~

恭喜你的内功又双叒叕得到了提高！！！

感谢你们的阅读😆

后续还会继续更新💓，欢迎持续关注📌哟~

💫如果有错误❌，欢迎指正呀💫

✨如果觉得收获满满，可以点点赞👍支持一下哟~✨

【传知科技 – 了解更多新知识】

这篇关于⌈ 传知代码 ⌋ 多模态COGMEN详解的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

⌈ 传知代码 ⌋ 多模态COGMEN详解

📌导航小助手📌

💡本章重点

🍞一. 概述

🍞二. 论文模型框架

🍞三. 演示效果

🍞四. 核心逻辑

🫓总结

相关文章

Java中StopWatch的使用示例详解

Java进行文件格式校验的方案详解

Java实现时间与字符串互相转换详解

Spring Boot 3.4.3 基于 Spring WebFlux 实现 SSE 功能(代码示例)

springboot security快速使用示例详解

java之Objects.nonNull用法代码解读

Python中随机休眠技术原理与应用详解

一文详解SpringBoot响应压缩功能的配置与优化

Python实现无痛修改第三方库源码的方法详解

java中反射(Reflection)机制举例详解