GCN学习：Pytorch-Geometric教程（二）

本文主要是介绍GCN学习：Pytorch-Geometric教程（二），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

PyG教程二

数据转换
GCN网络

数据转换

PyTorch Geometric带有自己的变换，该变换期望将Data对象作为输入并返回一个新的变换后的Data对象。可以使用torch_geometric.transforms.Compose将变换链接在一起，并在将处理后的数据集保存到磁盘之前（pre_transform）或访问数据集中的图形之前（transform）应用变换。
让我们看一个示例，其中我们对ShapeNet数据集（包含17,000个3D形状点clouds和来自16个形状类别的每个点标签）应用变换。

from torch_geometric.datasets import ShapeNet
dataset = ShapeNet(root='/tmp/ShapeNet', categories=['Airplane'])
print(dataset[0])
>>> Data(pos=[2518, 3], y=[2518])

通过transform将其从点云转化成图。

import torch_geometric.transforms as T
from torch_geometric.datasets import ShapeNet
dataset = ShapeNet(root='ShapeNet', categories=['Airplane'],pre_transform=T.KNNGraph(k=6))
print(dataset[0])
>>> Data(edge_index=[2, 15108], pos=[2518, 3], y=[2518])

在将数据保存到磁盘之前，我们使用pre_transform进行了转换（从而缩短了加载时间）。请注意，下一次初始化数据集时，即使我们不传递任何变换，也将已经包含图的边。

GCN网络

我们建立如下一个GCN网络
在这里插入图片描述先获取数据集：

from torch_geometric.datasets import Planetoid
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
dataset = Planetoid(root='Cora', name='Cora')
print(dataset)
print(dataset.num_node_features)
print(dataset.num_classes)
>>>Cora()
>>>1433
>>>7

Cora是一个机器学习论文数据集，其中共有7个类别（num_classes：基于案例、遗传算法、神经网络、概率方法、强化学习、规则学习、理论。整个数据集中共有2708篇论文，在词干堵塞和去除词尾后，只剩下1433个独特的单词（num_node_features）,文档频率小于10的所有单词都被删除。
这里我们并不需要使用dataloader和transform。

import torch
import torch.nn.functional as F
from torch_geometric.nn import GCNConv
class Net(torch.nn.module):def __init__(self):super(Net, self).__init__()#GCNConv的两个参数为input channel size和Output channel size#conv1将每个顶点的1433个特征压缩到16个特征值#conv2根据之前得到的16个特征值将其再压缩为7self.conv1=GCNConv(dataset.num_node_features, 16)self.conv2=GCNConv(16, dataset.num_classes)def forward(self, data):x, edge_index=data.x, data.edge_indexx=self.conv1(x, edge_index)x=F.relu(x)#dropout用于降低过拟合情况x=F.dropout((x, training = self.training))x=self.conv2(x, edge_index)#dim=0对一列所有元素的进行softmax运算#dim=1对一行所有元素的进行softmax运算return F.log_softmax(x,dim=1)

class GCNConv(in_channels: int, out_channels: int, improved: bool = False, cached: bool = False, add_self_loops: bool = True, normalize: bool = True, bias: bool = True, **kwargs)

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = Net().to(device)
data = dataset[0].to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=0.01, weight_decay=5e-4)model.train()
for epoch in range(200):optimizer.zero_grad()out = model(data)#在训练集上计算loss，out为图在gcn网络中的计算结果，data.y即7类的概率大小loss = F.nll_loss(out[data.train_mask], data.y[data.train_mask])loss.backward()optimizer.step()

#计算准确率
model.eval()
#选取7种类别中概率最大的类别为预测的节点类别
_, pred = model(data).max(dim=1)
correct = int(pred[data.test_mask].eq(data.y[data.test_mask]).sum().item())
acc = correct/int(data.test_mask.sum())
print('Accuracy:{:.4f}'.format(acc))
>>> Accuracy: 0.8150