KDD CUP 2021首届图神经网络大赛放榜,百度飞桨PGL获得2金1银

2023-12-03 06:50

本文主要是介绍KDD CUP 2021首届图神经网络大赛放榜,百度飞桨PGL获得2金1银,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

近日,由KDD CUP与OGB(Open Graph Benchmark)联合举办的首届图神经网络大赛正式放榜,在DeepMind、微软、蚂蚁金服、UCLA 等全球500多个顶尖企业、高校和实验室的激烈竞争中,百度凭借飞桨图学习框架PGL一路过关斩将,最终在全部三个赛道包揽了两冠一亚。

在这里插入图片描述

(本次大赛承办方斯坦福大学Jure Leskovec教授宣布冠军队伍)

据了解,KDD CUP是ACM SIGKDD组织的年度赛事,素有「大数据领域世界杯」之誉,是目前数据挖掘领域最高水平、最具影响力、规模最大的国际顶级赛事。而今年,KDD CUP与OGB联合举办了第一届OGB-LSC(OGB Large-Scale Challenge)比赛,提供来自真实世界的超大规模图数据,来完成图学习领域的节点分类、边预测和图回归三大任务。

本次比赛采取「闭卷考试」,整个比赛周期只有2次提交模型结果机会,极其考验参赛队伍模型泛化能力,竞赛难度极大。得益于百度在图神经网络的持续深耕,在本次大赛的三大赛道之中,百度飞桨图学习框架PGL,合计夺得大规模节点分类赛道冠军、大规模图关系预测赛道冠军、化学分子图性质预测赛道亚军。

在这里插入图片描述

(飞桨PGL夺冠页面:https://ogb.stanford.edu/kddcup2021/results/)

飞桨PGL代码完全开放,欢迎大家使用、反馈和贡献。

PGL链接:
https://github.com/PaddlePaddle/PGL
B站图神经网络7日教程:
https://www.bilibili.com/video/BV1rf4y1v7cU
PGL图学习入门教程:
https://aistudio.baidu.com/aistudio/projectdetail/413386
飞桨PGL参赛报告&代码:
https://github.com/PaddlePaddle/PGL/tree/main/examples/kddcup2021

大规模节点分类赛道冠军:引入基于异构关系的统一消息传递模型

OGB-LSC节点分类数据集,来源于真实世界的超大规模学术引用网络MAG(Microsoft Academic Graph)。OGB官方提取了超 2.4亿的实体(包括论文、作者等),构建出包含16亿边关系的大规模异构图。参赛选手需从异构图中挖掘有效信息,预测出指定的arXiv论文的主题(总共包含153个主题,例如cs.LG机器学习、q-bio.BM生物分子等)。

目前,解决节点分类的图学习方法主要包含两类:一类是标签传递算法,而另一类则是通过模型对多阶邻居特征进行聚合,并预测中心节点标签的图神经网络。然而目前这两种方法均有其局限性,无法最大限度的利用图节点中的标签信息。

为解决上述问题,飞桨PGL提出了统一消息传递模型UniMP,巧妙地利用了『标签掩盖』预测策略,使得模型可以在训练和预测中,同时进行标签传递和特征聚合,成功地将上述两种图学习方法统一到消息传递模型中,并在半监督节点分类任务上取得明显提升。目前,相关论文已被IJCAI2021收录,并成为目前节点分类任务中的主流的强基准。

在这里插入图片描述

(R-UniMP:标签与特征(图中蓝色能量)在统一的消息传递机制下进行传播)

针对本次的大规模异构图,飞桨PGL进一步引入了基于异构关系的采样方法与注意力融合机制,将UniMP升级成为R-UniMP,并且在飞桨并行计算框架基础上实现了分布式大规模图神经网络模型的训练和预测。实验结果相对官方基线的验证集准确率提升将近10个百分点!并最终在与DeepMind、微软、蚂蚁金服、清华等一众国内外科技公司与学术机构的较量中摘得桂冠。

大规模图关系预测赛道冠军:提出20层的NOTE-RPS知识图谱嵌入模型

本次边预测任务为大规模知识图谱中的关系预测。在知识图谱中,通过连接不同实体的三元组(例如姚明-出生于->上海)来表示关于世界的事实知识。然而,这些大型知识图谱并不完善,缺少实体之间的许多关系信息。

使用机器学习方法自动估算缺失的三元组可以显著减少人工修补成本,从而提供了更全面的知识图谱。本次比赛使用Wikidata知识图谱,包含近9千万的实体和5亿的三元组,为至今数据规模最大的知识图谱任务。

目前业界知识表示模型层出不穷,例如TransE、RotatE等。飞桨 PGL 基于大规模知识表示库PGL-KE,对已有算法升级提出了Normalized Orthogonal Transforms Embedding(NOTE)模型,能够对关系进行多维度建模,同时能在大规模场景下仍保持数值稳定性。

在这里插入图片描述

(NOTE:归一化正交转换知识图谱嵌入模型)

其次,飞桨PGL提出的Relation-based Post Smoothing (RPS)图神经网络算法,对训练完的NOTE模型进行后处理,并使用了 20 层的RPS模型,堪称知识图谱领域最深的图神经网络模型。基于NOTE+RPS大规模知识表示方案的实验结果相对于官方提供的基准提升了12个百分点,并最终在与阿里巴巴、哈工大、中科大等团队的较量中一举夺魁,助力知识图谱向实践应用迈出了巨大一步。

化学分子图性质预测赛道:利用分子3D构象构造自监督预训练辅助任务

分子特性预测已被广泛认为是计算药物和材料发现中最关键的任务之一。基于DFT量子物理计算的方法需要耗费大量时间才能有效预测多重分子性质。为了利用图神经网络强大的表达能力来预测分子性质, 飞桨PGL与螺旋桨PaddleHelix生物计算框架联合提出了LiteGEM模型,利用分子的3D构象构造自监督预训练辅助任务,提升分子性质预测效果,并最终获得亚军。

应用落地:可支持更大规模产业应用,飞桨图学习框架PGL迎来重大升级

除了在KDD CUP上全面开花, 飞桨PGL也一直持续地致力于图神经网络算法创新以及更大规模的工业应用落地。

近日,飞桨PGL迎来重大升级,推出了万亿超大规模分布式图引擎,本次KDD CUP夺冠技术方案即是均基于该分布式图引擎。分布式图引擎研发的初衷也是希望图学习算法可以在业界实现更大规模的产业应用,目前,百度已借助飞桨PGL在搜索、信息流推荐、金融风控、智能地图、知识图谱等多个场景实现数十项应用落地。

在这里插入图片描述

(深度学习开发者峰会 WaveSummit 2021 万亿图引擎发布现场)

此外,飞桨PGL还与多个外部机构合作:网易云音乐在调研了大量开源方案后,也选择了对大规模图训练更加友好的飞桨PGL作为云音乐推荐的图神经网络基础框架。同时,飞桨 PGL 也助力科技创新2030「新一代人工智能」重大项目OpenKS知识计算引擎。

源于图神经网络对于复杂数据建模的便利以及其强大的表达能力,飞桨PGL也探究图神经网络与多个交叉学科的结合,包括构建大数据疫情预测系统,与飞桨螺旋桨PaddleHelix合作致力于化合物属性预测,并在多个化合物预测榜单上取得SOTA。

在这里插入图片描述

(飞桨图学习框架PGL)

图学习作为通用的人工智能算法之一,势必成为智能时代新的基础能力,赋能各行各业,助力智能经济腾飞。现阶段仅仅是图学习热潮的开始,未来还将有更加深度的技术产出,和更大规模的产业机会出现,扎根图学习领域,持续为产业智慧化升级赋能,需要从现在就开始。

百度自然语言处理(Natural Language Processing,NLP)以『理解语言,拥有智能,改变世界』为使命,研发自然语言处理核心技术,打造领先的技术平台和创新产品,服务全球用户,让复杂的世界更简单。

在这里插入图片描述

这篇关于KDD CUP 2021首届图神经网络大赛放榜,百度飞桨PGL获得2金1银的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/448522

相关文章

百度/小米/滴滴/京东,中台架构比较

小米中台建设实践 01 小米的三大中台建设:业务+数据+技术 业务中台--从业务说起 在中台建设中,需要规范化的服务接口、一致整合化的数据、容器化的技术组件以及弹性的基础设施。并结合业务情况,判定是否真的需要中台。 小米参考了业界优秀的案例包括移动中台、数据中台、业务中台、技术中台等,再结合其业务发展历程及业务现状,整理了中台架构的核心方法论,一是企业如何共享服务,二是如何为业务提供便利。

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

使用JS/Jquery获得父窗口的几个方法(笔记)

<pre name="code" class="javascript">取父窗口的元素方法:$(selector, window.parent.document);那么你取父窗口的父窗口的元素就可以用:$(selector, window.parent.parent.document);如题: $(selector, window.top.document);//获得顶级窗口里面的元素 $(

GPU 计算 CMPS224 2021 学习笔记 02

并行类型 (1)任务并行 (2)数据并行 CPU & GPU CPU和GPU拥有相互独立的内存空间,需要在两者之间相互传输数据。 (1)分配GPU内存 (2)将CPU上的数据复制到GPU上 (3)在GPU上对数据进行计算操作 (4)将计算结果从GPU复制到CPU上 (5)释放GPU内存 CUDA内存管理API (1)分配内存 cudaErro

机器学习之监督学习(三)神经网络

机器学习之监督学习(三)神经网络基础 0. 文章传送1. 深度学习 Deep Learning深度学习的关键特点深度学习VS传统机器学习 2. 生物神经网络 Biological Neural Network3. 神经网络模型基本结构模块一:TensorFlow搭建神经网络 4. 反向传播梯度下降 Back Propagation Gradient Descent模块二:激活函数 activ

2021-8-14 react笔记-2 创建组件 基本用法

1、目录解析 public中的index.html为入口文件 src目录中文件很乱,先整理文件夹。 新建components 放组件 新建assets放资源   ->/images      ->/css 把乱的文件放进去  修改App.js 根组件和index.js入口文件中的引入路径 2、新建组件 在components文件夹中新建[Name].js文件 //组件名首字母大写

2021-08-14 react笔记-1 安装、环境搭建、创建项目

1、环境 1、安装nodejs 2.安装react脚手架工具 //  cnpm install -g create-react-app 全局安装 2、创建项目 create-react-app [项目名称] 3、运行项目 npm strat  //cd到项目文件夹    进入这个页面  代表运行成功  4、打包 npm run build

图神经网络框架DGL实现Graph Attention Network (GAT)笔记

参考列表: [1]深入理解图注意力机制 [2]DGL官方学习教程一 ——基础操作&消息传递 [3]Cora数据集介绍+python读取 一、DGL实现GAT分类机器学习论文 程序摘自[1],该程序实现了利用图神经网络框架——DGL,实现图注意网络(GAT)。应用demo为对机器学习论文数据集——Cora,对论文所属类别进行分类。(下图摘自[3]) 1. 程序 Ubuntu:18.04

Imageview在百度地图中实现点击事件

1.首先第一步,需要声明的全局有关类的引用 private BMapManager mBMapMan; private MapView mMapView; private MapController mMapController; private RadioGroup radiogroup; private RadioButton normalview; private RadioBu

基于深度学习 卷积神经网络resnext50的中医舌苔分类系统

项目概述 本项目旨在通过深度学习技术,特别是利用卷积神经网络(Convolutional Neural Networks, CNNs)中的ResNeXt50架构,实现对中医舌象图像的自动分类。该系统不仅能够识别不同的舌苔类型,还能够在PyQt5框架下提供一个直观的图形用户界面(GUI),使得医生或患者能够方便地上传舌象照片并获取分析结果。 技术栈 深度学习框架:采用PyTorch或其他