34. BI - 美国大学生足球队的 GCN 案例

2024-04-24 09:44

本文主要是介绍34. BI - 美国大学生足球队的 GCN 案例,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文为 「茶桁的 AI 秘籍 - BI 篇 第 34 篇」

文章目录

    • 美国大学生足球队 Embedding(GCN)

在这里插入图片描述

Hi,你好。我是茶桁。

在上一节课中,因为需要,我们先是回顾了一下 Graph Embedding,然后跟大家讲解了 GCN 以及其算法。虽然是推导完了,不过具体要怎么使用可能很多同学还是不太清楚,那咱们这一节课,就拿一个例子来看看具体的 GCN 该怎么去用。

美国大学生足球队 Embedding(GCN)

首先用 networkx 对图做一个处理,原始数据去加载的时候是read_gml:

import networkx as nx
G = nx.read_gml(path + '/LPA/football.gml')

读进来的数据进行可视化,去看一下顶点的情况,看一下某一个数值的取值。

# 可视化
plot_graph(G)
print(list(G.nodes()))
print(G.nodes['BrighamYoung']['value'])---
['BrighamYoung', ..., 'Hawaii']
7

20240227102633

然后先对字母做个排序,排序以后对它求一个邻接矩阵。

# 按照字母顺序排序
order = sorted(list(G.nodes()))
print(order)# 邻接矩阵
A = nx.to_numpy_array(G, nodelist = order)
print(A)---
['AirForce', ..., 'Wyoming']
[[0. 0. 0. ... 0. 0. 1.][0. 0. 0. ... 0. 0. 0.][0. 0. 0. ... 0. 0. 0.]...[0. 0. 0. ... 0. 1. 0.][0. 0. 0. ... 1. 0. 0.][1. 0. 0. ... 0. 0. 0.]]

这个邻接矩阵和图是完全对应的,一个球队有比赛就为 1,没有比赛就为 0。

只是提取邻接特征可能会把自己忘下,所以还要生成一个对角矩阵。

I = np.eye(G.number_of_nodes())
A_hat = A + I
print(A_hat)---
[[1. 0. 0. ... 0. 0. 1.][0. 1. 0. ... 0. 0. 0.][0. 0. 1. ... 0. 0. 0.]...[0. 0. 0. ... 1. 1. 0.][0. 0. 0. ... 1. 1. 0.][1. 0. 0. ... 0. 0. 1.]]

将其写成一个 A_hat 这种形式做一个累加,对角矩阵的对角线都为 1,因为加了一个 I。然后我们想要求一下它的度矩阵 D_hat:

# D_hat 为 A_hat 的度矩阵
D_hat = np.sum(A_hat, axis=0)
print('D_hat: \n', D_hat)---
[[11. ... 12.]]
# 得到对角线上的元素
D_hat = np.matrix(np.diag(D_hat))
print('D_hat: \n', D_hat)---
D_hat: [[11.  0.  0. ...  0.  0.  0.]...[ 0.  0.  0. ...  0.  0. 12.]]

D_hat 本质上一开始得到的是一个向量,这个向量代表含义是你打比赛的次数,就是连接边的个数。一共有115支球队,每个球队打的比赛的次数就放上来了。原来是个向量,现在把它列成对角线,用 np.matrix 进行生成。

前面这些都生成完了,下面就要做一些特征的提取,对 GCN 的算子去进行使用。在特征提取之后,每一层的神经元都有一些连接,咱们把神经元的参数做一个除法。

# 第一层神经元, 4 个维度
W_1 = np.random.normal(loc=0, scale=1, size=(G.number_of_nodes(), 4))# 第二层神经元,4 => 2
W_2 = np.random.normal(loc=0, size=(W_1.shape[1], 2))
print('W_1: \n', W_1)
print('W_2: \n', W_2)---
W_1: [[ 1.79361799e+00  1.00663949e-01  3.15681973e-01  1.57018908e+00]
...[ 3.83597029e-02 -4.11584967e-02  1.23188020e+00  8.01688421e-01]]W_2: [[-0.15407588 -0.34138474][-1.08699826  1.29461044][-0.78768133  0.88276975][-0.31945927  0.72302237]]

在神经网络过程中最开始的参数本质上也是一个随机数。在神经网络最开始的部分后面参数学习是通过梯度下降来进行学习的,但最早期可以采用随机数,这个随机数是 normal 的方法,normal 就是正态分布。我们是在 0 附近做了一个很小的随机数。

有两层神经元 W_1 和 W_2,如果要加非线性特征可以用 relu,来定义一下:

# 当 x<0 时,结果 = 0,x >= 0 时,结果 = x
def relu(x):return (abs(x)+x) / 2

relu 的计算方式就是 x 加上 abs(x),绝对值,然后再除以2。如果 x 大于 0 它就等于 x,如果小于 0 它就等于 0,这就是 relu 的函数定义。

GCN 这一层的计算逻辑,D_hat 的 -1 次方,其实就是一个倒数的概念。然后乘上 A,A 是邻接矩阵,X 是输入值,W 是权重系数。乘完以后,前面加一层 relu。

这就是 GCN 层的一个提取,同时又加了一个激活函数。现在我来问问大家,这一部分咱们是用了第几种的拉普拉斯算子?其实就是我上一节课中讲的第二种算子,写出来大家回顾一下:

L r w = D − 1 A \begin{align*} L^{rw} = D^{-1}A \end{align*} Lrw=D1A

实际上逻辑也一样,你也可以用第三种的,都是一样。

把 GCN 层定义下来以后,现在是做了两层的 GCN。最开始的原始数据就输个对角线,第一层的输出结果就是 H_1,把它作为下一层的输入,然后得到了第二层的结果 H_2。H_2 输出就不做其他操作,就把它当成 output 进行输出就可以了。

以上就是 GCN 的一个特征提取,后面咱们一起来看一看,下面其实都是去画一张图,把特征提取的结果通过一种转化的形式给他画一张图,详细的可以去看我上传的源代码。

# 绘制 output,节点 GCN Embedding 可视化
def plot_node(output, title):for i in range(len(nodes)):node_name = nodes[i]value = G.nodes[node_name]['value']plt.scatter(np.array(output)[i,0],np.array(output)[i,1] ,label=str(i), color=getValue(value), alpha=0.5, s=250)plt.text(np.array(output)[i,0],np.array(output)[i,1] ,i, horizontalalignment='center',verticalalignment='center', fontdict={'color':'black'})plt.title(title)plt.show()plot_node(output, 'Graph Embedding')

20240227143025

之前的代码中,咱们是做了 relu 这部分的激活函数,其实我还做了一份没有 relu 的代码,一样把它可视化出来:

20240227143031

我们来看两种方式,放到二维平面上面,relu 的这个特征提取的好吗?提取得好不好是看后续方不方便做分类任务,如果都挤在一起这个分类就不一定好做了对吧?不带 relu 的特征提取似乎是更理想一些,所以从这个结论上来去看,我们并没有学习,只是用随机数来进行了一个计算。第二,也没有加 relu,GCN的特征提取能力已经很强大了。

所以,其实 GCN 本身的特征提取能力就还不错,而且我们也是拿随机数来进行特征提取,特征提取能力还是比较强大的。以上就把 GCN 的算子用于神经网络的计算,而整个的神经网络就是这样的一套逻辑。

特征的好坏的评价标准是用于后续任务来去做衡量的,如果它分布的比较开那后续可能就比较好计算了。真正写项目的时候要不要加 relu 呢?刚才那个数据集比较简单,也才115支球队,所以不加 relu 是OK的,加了反而效果可能不好。那有些时候还是要试的,有的时候如果数据集比较复杂,加了 relu 效果会更好一点。

GCN 的这套逻辑其实并不是特别复杂,就是在神经网络上面对图做了一个特征提取。它的本质就是提取邻居的特征,再加上自己的特征,方便后续做特征提取的计算,同时又做了一些降维的处理。

那本节课只是拿美国大学生足球队的这个例子初步的来了解一下 GCN 的整个过程和逻辑,之前咱们也用过这个数据,大家可以自行去对比一下。

下一节课,咱们来看一个实际的项目。

这篇关于34. BI - 美国大学生足球队的 GCN 案例的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/931404

相关文章

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

【区块链 + 人才服务】可信教育区块链治理系统 | FISCO BCOS应用案例

伴随着区块链技术的不断完善,其在教育信息化中的应用也在持续发展。利用区块链数据共识、不可篡改的特性, 将与教育相关的数据要素在区块链上进行存证确权,在确保数据可信的前提下,促进教育的公平、透明、开放,为教育教学质量提升赋能,实现教育数据的安全共享、高等教育体系的智慧治理。 可信教育区块链治理系统的顶层治理架构由教育部、高校、企业、学生等多方角色共同参与建设、维护,支撑教育资源共享、教学质量评估、

客户案例:安全海外中继助力知名家电企业化解海外通邮困境

1、客户背景 广东格兰仕集团有限公司(以下简称“格兰仕”),成立于1978年,是中国家电行业的领军企业之一。作为全球最大的微波炉生产基地,格兰仕拥有多项国际领先的家电制造技术,连续多年位列中国家电出口前列。格兰仕不仅注重业务的全球拓展,更重视业务流程的高效与顺畅,以确保在国际舞台上的竞争力。 2、需求痛点 随着格兰仕全球化战略的深入实施,其海外业务快速增长,电子邮件成为了关键的沟通工具。

【区块链 + 人才服务】区块链集成开发平台 | FISCO BCOS应用案例

随着区块链技术的快速发展,越来越多的企业开始将其应用于实际业务中。然而,区块链技术的专业性使得其集成开发成为一项挑战。针对此,广东中创智慧科技有限公司基于国产开源联盟链 FISCO BCOS 推出了区块链集成开发平台。该平台基于区块链技术,提供一套全面的区块链开发工具和开发环境,支持开发者快速开发和部署区块链应用。此外,该平台还可以提供一套全面的区块链开发教程和文档,帮助开发者快速上手区块链开发。

BUUCTF(34)特殊的 BASE64

使用pycharm时,如果想把代码撤销到之前的状态可以用 Ctrl+z 如果不小心撤销多了,可以用 Ctrl+Shift+Z 还原, 别傻傻的重新敲了 BUUCTF在线评测 (buuoj.cn) 查看字符串,想到base64的变表 这里用的c++的标准程序库中的string,头文件是#include<string> 这是base64的加密函数 std::string

STL经典案例(四)——实验室预约综合管理系统(项目涉及知识点很全面,内容有点多,耐心看完会有收获的!)

项目干货满满,内容有点过多,看起来可能会有点卡。系统提示读完超过俩小时,建议分多篇发布,我觉得分篇就不完整了,失去了这个项目的灵魂 一、需求分析 高校实验室预约管理系统包括三种不同身份:管理员、实验室教师、学生 管理员:给学生和实验室教师创建账号并分发 实验室教师:审核学生的预约申请 学生:申请使用实验室 高校实验室包括:超景深实验室(可容纳10人)、大数据实验室(可容纳20人)、物联网实验

(入门篇)JavaScript 网页设计案例浅析-简单的交互式图片轮播

网页设计已经成为了每个前端开发者的必备技能,而 JavaScript 作为前端三大基础之一,更是为网页赋予了互动性和动态效果。本篇文章将通过一个简单的 JavaScript 案例,带你了解网页设计中的一些常见技巧和技术原理。今天就说一说一个常见的图片轮播效果。相信大家在各类电商网站、个人博客或者展示页面中,都看到过这种轮播图。它的核心功能是展示多张图片,并且用户可以通过点击按钮,左右切换图片。

2024年AMC10美国数学竞赛倒计时两个月:吃透1250道真题和知识点(持续)

根据通知,2024年AMC10美国数学竞赛的报名还有两周,正式比赛还有两个月就要开始了。计划参赛的孩子们要记好时间,认真备考,最后冲刺再提高成绩。 那么如何备考2024年AMC10美国数学竞赛呢?做真题,吃透真题和背后的知识点是备考AMC8、AMC10有效的方法之一。通过做真题,可以帮助孩子找到真实竞赛的感觉,而且更加贴近比赛的内容,可以通过真题查漏补缺,更有针对性的补齐知识的短板。