Re9:读论文 DEAL Inductive Link Prediction for Nodes Having Only Attribute Information

本文主要是介绍Re9:读论文 DEAL Inductive Link Prediction for Nodes Having Only Attribute Information,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

诸神缄默不语-个人CSDN博文目录

论文名称:Inductive Link Prediction for Nodes Having Only Attribute Information
论文ArXiv下载地址:https://arxiv.org/abs/2007.08053
论文IJCAI官方下载地址:https://www.ijcai.org/proceedings/2020/168(在该网站中有给出讲解视频链接,这TMD是我这么多天以来听到的第一个中国人讲的英文论文视频了!感动中国,终于有一个我听得懂的英语口音了!毛子口音和三哥口音我是真的受够了!)(本文中非论文配图的插图都截自该视频)
官方GitHub项目:working-yuhao/DEAL: IJCAI2020

本文是2020年IJCAI论文,主要专注于inductive link prediction场景(但是模型也可以应用于transductive场景)。
inductive场景中新节点仅有attribute,没有结构信息。

本文提出的模型DEAL (Dual-Encoder graph embedding with ALignment) 可以对新query node仅基于其attributes做表征,与其他节点嵌入做链路预测。

DEAL模型分别对attribute和图结构进行嵌入(2个encoder,一个是纯MLP,一个是直接以独热编码为初始化矩阵+MLP+weight normalization1做节点表征(效果甚至比GCN好,简单方法大力出奇迹)),然后使用一个对齐机制将两个encoder关联起来(在训练过程中一起更新,使表征在向量空间中对齐),具体实现方式是做两个对比学习:是否连边(相连的节点,encoder得到的表征相似度应该高),以及2个encoder得到的表征。
用余弦相似度来衡量距离。
这个损失函数是可以用超参数调整的ranking-motivated loss。

在测试时用两个节点的两种表征两两交叉计算相似度线性求和来计算连边概率:
在这里插入图片描述
如果是inductive范式,就不计算第一项。

可以跟引用了DEAL模型的LeSICiN2做对比。
LeSICiN可以说是将DEAL模型extend到了有监督异质图场景,对齐机制是两种节点的不同表征做交叉对齐(为什么不是每种节点自己对齐自己的,我也不知道),打分则和DEAL使用的表征对相同(只做了inductive场景),但不用相似度而用MLP解码。损失函数则直接将3种打分得到的分数视作概率,用多任务分类任务范式将3个交叉熵损失函数加权求和。

文章目录

  • 1. Background & Motivation
  • 2. DEAL模型
    • 2.1 Attribute-oriented Encoder
    • 2.2 Structure-oriented Encoder
    • 2.3 对齐机制和模型训练
      • 2.3.1 损失函数
      • 2.3.2 对齐机制
      • 2.3.3 训练算法和预测过程
  • 3. 实验
    • 3.1 数据集
    • 3.2 baseline
    • 3.3 实验设置
    • 3.4 主实验结果
    • 3.5 模型分析
  • 4. 代码复现

1. Background & Motivation

在这里插入图片描述

早期链路预测任务关注节点相似性的度量,近年来往往通过图嵌入方法来实现链路预测。有些图嵌入方法只能捕获图结构信息,能捕获attributes信息的大多关注transductive范式(两个节点都在训练时就存在于图中)。
可以做inductive链路预测,但是需要边的模型:SDNE3(只能捕获图结构信息)和GraphSAGE4
G2G5:可以对没有局部结构的新节点做inductive链路预测,但无法区分特征相似的节点,因为它无法很好地捕获节点表征中体现的结构信息。

2. DEAL模型

在这里插入图片描述

在视频中的画法,换了个方向:
在这里插入图片描述

2.1 Attribute-oriented Encoder

输入是节点attributes,输出节点嵌入:在这里插入图片描述

可以选择各种神经网络,本文直接用了MLP(激活函数是ELU):
在这里插入图片描述

(这里论文对没用GCN的解释是:经实验观察,聚合太多邻居信息会影响attributes表征效果。我的迷惑点在于,这他妈的在inductive场景下不是本来就不能用GCN吗!)

2.2 Structure-oriented Encoder

用节点独热编码作为输入,得到节点嵌入:在这里插入图片描述

在这里插入图片描述

就是说这个本来也可以用GCN(以邻接矩阵为输入),但是实验证明效果不如本文提出的方法。

2.3 对齐机制和模型训练

学习特征和结构之间的关联。
模型训练时2个encoder一起更新参数,在向量空间对齐表征。

2.3.1 损失函数

ranking-motivated loss(证明其效果的参考文献:5和Content-based citation recommendation)
本文提出了一个新的mini-batch learning method with a personalized ranking-motivated loss

contrastive loss6
在这里插入图片描述
(公式中p-q是成对样本,共有k对)

直接使用contrastive loss的问题是:1. 负样本对距离不同,因此用同一个margin( τ \tau τ)不合适。2. 损失函数中没有考虑regularization。
在这里插入图片描述
y是节点是否连边, α \alpha α是weight function, ϕ \phi ϕ通过不同的超参形成 ϕ 1 \phi_1 ϕ1 ϕ 2 \phi_2 ϕ2 s s s在本文中用的是余弦相似度。

由于logistic loss可看作margin无限的软版hinge loss(参考文献:A tutorial on energy-based learning)(没看懂这个啥意思),因此本文使用了the generalized logisitic loss function:
在这里插入图片描述
(参考文献:A view of margin losses as regularizers of probability estimates)

在这里插入图片描述
(衡量不同距离样本的重要性。 d s p d_{sp} dsp是shortest path distance)

2.3.2 对齐机制

最小化2个encoder的上述损失函数,然后加上对齐机制。

  1. Tight Alignment (T-align):最小化节点的2种表征(太严格了)
    在这里插入图片描述
  2. Loose Alignment (L-align):最大化相连节点的不同表征(就是一个结构、一个attributes)的相似性(用和2.3.1部分介绍的一样的损失函数来做)
    在这里插入图片描述

最后就是两个链路预测的损失,加对齐的损失:
在这里插入图片描述

2.3.3 训练算法和预测过程

在这里插入图片描述

测试时:
在这里插入图片描述
(在inductive场景下, λ 1 \lambda_1 λ1为0)

3. 实验

3.1 数据集

在这里插入图片描述
细节略

3.2 baseline

MLP
SEAL
G2G5
GAE
细节略

3.3 实验设置

略。

3.4 主实验结果

在这里插入图片描述

论文里也没说这个Cite.是啥模型。

在这里插入图片描述

3.5 模型分析

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
细节略,待补。

4. 代码复现

等我服务器好了再说。


  1. Weight normalization: A simple reparameterization to accelerate training of deep neural networks
    我直接百度了相关的一些资料:
    ① 【深度学习】Weight Normalization: 一种简单的加速深度网络训练的重参数方法_Shwan_Ma的博客-CSDN博客:这篇开头就满篇错别字
    ② Generative Modeling with Variational Auto Encoder (VAE) | by Fathy Rashad | ViTrox-Publication | Medium:重要内容:AE (Auto Encoder) 和VAE (Variational Autoencoder),VAE是用来规范化AE的(强迫隐向量空间连续、有意义,把每个特征值学成一个高斯分布)。后面数学部分简单带过了,没仔细看,总之大约来说就是这个分布需要通过差分推断来学习,也就是需要学习另一个tractable相似分布,通过KL散度来学习两个分布的相似程度。
    对应的中文翻译(我是直接看的英文版):使用(VAE)生成建模,理解可变自动编码器背后的数学原理 - 知乎
    ③ inference - What does a ‘tractable’ distribution mean? - Cross Validated:不能用闭包表现形式解决的问题
    ④ GAN — Why it is so hard to train Generative Adversarial Networks! | by Jonathan Hui | Medium
    ⑤ 重参数 (Reparameterization)_连理o的博客-CSDN博客_重参数
    ⑥ 模型优化之Weight Normalization - 知乎:怎么说呢,看起来好像就是对参数的一种归一化方法(将其拆成两部分,然后直接优化这两部分) ↩︎

  2. Re6:读论文 LeSICiN: A Heterogeneous Graph-based Approach for Automatic Legal Statute Identification fro ↩︎

  3. Structural deep network embedding ↩︎

  4. Inductive representation learning on large graphs ↩︎

  5. Deep gaussian embedding of graphs: Unsupervised inductive learning via ranking ↩︎ ↩︎ ↩︎

  6. Dimensionality reduction by learning an invariant mapping ↩︎

这篇关于Re9:读论文 DEAL Inductive Link Prediction for Nodes Having Only Attribute Information的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/389804

相关文章

pixel_link记录

export PYTHONPATH=/path2to/pixel_link/pylib/src:$PYTHONPATH   https://blog.csdn.net/northeastsqure/article/details/83655200   https://blog.csdn.net/u011440558/article/details/78606662   报错: All

康奈尔大学之论文审稿模型Reviewer2及我司七月对其的实现(含PeerRead)

前言 自从我司于23年7月开始涉足论文审稿领域之后「截止到24年6月份,我司的七月论文审稿GPT已经迭代到了第五版,详见此文的8.1 七月论文审稿GPT(从第1版到第5版)」,在业界的影响力越来越大,所以身边朋友如发现业界有相似的工作,一般都会第一时间发给我,比如本部分要介绍的康奈尔大学的reviewer2 当然,我自己也会各种看类似工作的论文,毕竟同行之间的工作一定会互相借鉴的,我们会学他们

【论文精读】分类扩散模型:重振密度比估计(Revitalizing Density Ratio Estimation)

文章目录 一、文章概览(一)问题的提出(二)文章工作 二、理论背景(一)密度比估计DRE(二)去噪扩散模型 三、方法(一)推导分类和去噪之间的关系(二)组合训练方法(三)一步精确的似然计算 四、实验(一)使用两种损失对于实现最佳分类器的重要性(二)去噪结果、图像质量和负对数似然 论文:Classification Diffusion Models: Revitalizing

【python】python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】 目录 python葡

论文阅读--Efficient Hybrid Zoom using Camera Fusion on Mobile Phones

这是谷歌影像团队 2023 年发表在 Siggraph Asia 上的一篇文章,主要介绍的是利用多摄融合的思路进行变焦。 单反相机因为卓越的硬件性能,可以非常方便的实现光学变焦。不过目前的智能手机,受制于物理空间的限制,还不能做到像单反一样的光学变焦。目前主流的智能手机,都是采用多摄的设计,一般来说一个主摄搭配一个长焦,为了实现主摄与长焦之间的变焦,目前都是采用数字变焦的方式,数字变焦相比于光学

【LLM之KG】CoK论文阅读笔记

研究背景 大规模语言模型(LLMs)在许多自然语言处理(NLP)任务中取得了显著进展,特别是在零样本/少样本学习(In-Context Learning, ICL)方面。ICL不需要更新模型参数,只需利用几个标注示例就可以生成预测。然而,现有的ICL和链式思维(Chain-of-Thought, CoT)方法在复杂推理任务上仍存在生成的推理链常常伴随错误的问题,导致不真实和不可靠的推理结果。

【python】python基于akshare企业财务数据对比分析可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 系列文章目录 目录 系列文章目录一、设计要求二、设计思路三、可视化分析 一、设计要求 选取中铁和贵州茅

使用J-Link Commander查找STM32死机问题

接口:PA13,PA14,请勿连接复位引脚。 输入usb命令 这里我已经连接过了STM32F407VET6了。 再输入connect命令 这里我已经默认选择了SWD接口,4000K速率。 可以输入speed 4000命令选择4000K速率: 写一段崩溃代码进行测试: void CashCode(void){*((volatile uint32_t*) 0x080FFFFF)

AIGC-Animate Anyone阿里的图像到视频 角色合成的框架-论文解读

Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation 论文:https://arxiv.org/pdf/2311.17117 网页:https://humanaigc.github.io/animate-anyone/ MOTIVATION 角色动画的

【python】python股票量化交易策略分析可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 【python】python股票量化交易策略分析可视化(源码+数据集+论文)【独一无二】 目录 【python】pyt