异构图上的连接预测一

2024-05-27 00:28
文章标签 连接 预测 异构 图上

本文主要是介绍异构图上的连接预测一,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

这里写目录标题

  • 异构图?
  • 处理数据:

异构图?

异构图:就是指节点与边类型不同的图。
连接预测:目的是预测图中两个节点之间是否存在一条边,或者是预测两个节点之间,在未来可能形成的连接。
eg:
节点:
研究人员A、研究人员B、研究人员C
论文P1、论文P2
机构I1
边关系:
研究人员A 写作 论文P1
研究人员B 写作 论文P1
研究人员C 写作 论文P2
论文P1 隶属于 机构I1
例如呢,我们想预测 在未来 A 与B 是否会合作写作论文呢?
或者是预测 B会不会加入机构l1呢?

处理数据:

代码展示,其中包括我其中遇到的困惑。

"""
MoviesLens数据集:描述了MoviesLens的评分以及标记活动。
该数据集包括600多个用户对9000多部电影的10万个评分。
使用该数据集生成两种节点类型: 分别保存电影  和 用户的数据,
以及一种连接用户和电影的边缘类型,表示用户是否对特定电影进行了评级关系。
最后,链接预测任务 尝试预测缺失的评分,可以用于向用户推荐新电影。"""import torch
import os
import pandas as pd
from torch_geometric.data import HeteroData
import torch_geometric.transforms as T
# 电影
movies_path = './data/ml-latest-small/movies.csv'
# 评分
ratings_path = './data/ml-latest-small/ratings.csv'# 在处理数据之前肯定得先知道csv中的数据格式
# print('movies.csv')
# print('movies.csv:')
# print('===========')
# print(pd.read_csv(movies_path)[["movieId", "genres"]].head(10))
# print()
# print('ratings.csv:')
# print('============')
# print(pd.read_csv(ratings_path)[["userId", "movieId"]].head(10))# 加载数据,movieId 作为索引列
movies_df = pd.read_csv(movies_path,index_col='movieId')
# data = {
#     'movieId': [1, 2, 3],
#     'title': ['Toy Story', 'Jumanji', 'Grumpier Old Men'],
#     'genres': ['Adventure|Animation|Children|Comedy|Fantasy',
#                'Adventure|Children|Fantasy',
#                'Comedy|Romance']
# }
# 执行下方这行代码,作用就是按照 | 进行分割,且使用one-hot 编码
# 输出:   Adventure  Animation  Children  Comedy  Fantasy  Romance
# 0          1          1         1       1        1        0
# 1          1          0         1       0        1        0
# 2          0          0         0       1        0        1
genres = movies_df['genres'].str.get_dummies('|')
# print(genres[["Action", "Adventure", "Drama", "Horror"]].head())
# (9742, 20) 9742部电影,20种体裁
# print(genres.values.shape)
# 将genres作为电影的输入特征
movie_feat = torch.from_numpy(genres.values).to(torch.float)
assert movie_feat.size() == (9742,20)# 同理对评分进行处理
ratings_df = pd.read_csv(ratings_path)# 提取出每个用户的id
"""
ratings_data = {'userId': [10, 20, 10, 30, 20, 40, 30, 50],'movieId': [101, 101, 102, 103, 104, 105, 106, 107],'rating': [3.5, 4.0, 2.5, 5.0, 4.0, 3.0, 4.5, 2.0]
}
"""
# unique_user_id = ([10, 20, 30, 40, 50])
unique_user_id = ratings_df['userId'].unique()
# 创建映射表
"""userId  mappedID
0      10         0
1      20         1
2      30         2
3      40         3
4      50         4
"""
unique_user_id = pd.DataFrame(data={'userId': unique_user_id,'mappedID':pd.RangeIndex(len(unique_user_id))
})# 同理,对电影进行相同处理
unique_movie_id = ratings_df['movieId'].unique()
unique_movie_id = pd.DataFrame(data={'movieId':unique_movie_id,'mappedID':pd.RangeIndex(len(unique_movie_id))
})# 获取user和movie的原始Id和映射ID
# 下方这代码,不就是将评分表种的原始id与获取的映射id进行映射而已吗
ratings_user_id = pd.merge(ratings_df['userId'],unique_user_id,left_on='userId',right_on='userId',how='left')
ratings_user_id = torch.from_numpy(ratings_user_id['mappedID'].values)ratings_movie_id = pd.merge(ratings_df['movieId'], unique_movie_id,left_on='movieId', right_on='movieId', how='left')
ratings_movie_id = torch.from_numpy(ratings_movie_id['mappedID'].values)# 构造’edge_index'
# 在这里,你肯定会有这个疑惑?
# 为啥能那么刚好,例如用户id为0的,刚好就是评论10号电影呢?
# 其实在一开始,所有的数据都是安排好的
#  'userId': [1, 2, 1, 3, 2, 4, 3, 5],
#    'movieId': [101, 101, 102, 103, 104, 105, 106, 107],
#    'rating': [3.5, 4.0, 2.5, 5.0, 4.0, 3.0, 4.5, 2.0]
# 是不是一一对应呢?只是将userid和movieid转变为对应的mappedid而已
# 例如:userid:[0, 1, 0, 2, 1, 3, 2, 4]
#      movieid:[0, 0, 1, 2, 3, 4, 5, 6]
edge_index_user_to_movie = torch.stack([ratings_user_id,ratings_movie_id],dim=0)
assert edge_index_user_to_movie.size() == (2,100836)
"""
tensor([[   0,    0,    0,  ...,  609,  609,  609],[   0,    1,    2,  ..., 3121, 1392, 2873]])
"""
# print(edge_index_user_to_movie)# 到现在,完成了数据的处理
# 初始化HeterData 对象。
data = HeteroData()# 保存节点索引
data['user'].node_id = torch.arange(len(unique_user_id))
data['movie'].node_id = torch.arange(len(movies_df))# 添加节点特征和边索引
data['movie'].x = movie_feat  # 电影的体裁作为节点特征,因为每个电影可能会有多个体裁
data['user','rates','movie'].edge_index =edge_index_user_to_movie# 添加反向边,使得GNN能够在两个方向上传递消息,那不就是成为无向图咯
data = T.ToUndirected()(data)print(data)
assert data.node_types == ["user", "movie"]
assert data.edge_types == [("user", "rates", "movie"),("movie", "rev_rates", "user")]assert data["user"].num_nodes == 610
assert data["user"].num_features == 0
assert data["movie"].num_nodes == 9742
assert data["movie"].num_features == 20assert data["user", "rates", "movie"].num_edges == 100836
assert data["movie", "rev_rates", "user"].num_edges == 100836

这篇关于异构图上的连接预测一的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1006014

相关文章

C#连接SQL server数据库命令的基本步骤

《C#连接SQLserver数据库命令的基本步骤》文章讲解了连接SQLServer数据库的步骤,包括引入命名空间、构建连接字符串、使用SqlConnection和SqlCommand执行SQL操作,... 目录建议配合使用:如何下载和安装SQL server数据库-CSDN博客1. 引入必要的命名空间2.

Java通过驱动包(jar包)连接MySQL数据库的步骤总结及验证方式

《Java通过驱动包(jar包)连接MySQL数据库的步骤总结及验证方式》本文详细介绍如何使用Java通过JDBC连接MySQL数据库,包括下载驱动、配置Eclipse环境、检测数据库连接等关键步骤,... 目录一、下载驱动包二、放jar包三、检测数据库连接JavaJava 如何使用 JDBC 连接 mys

Qt使用QSqlDatabase连接MySQL实现增删改查功能

《Qt使用QSqlDatabase连接MySQL实现增删改查功能》这篇文章主要为大家详细介绍了Qt如何使用QSqlDatabase连接MySQL实现增删改查功能,文中的示例代码讲解详细,感兴趣的小伙伴... 目录一、创建数据表二、连接mysql数据库三、封装成一个完整的轻量级 ORM 风格类3.1 表结构

MySQL中的表连接原理分析

《MySQL中的表连接原理分析》:本文主要介绍MySQL中的表连接原理分析,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、背景2、环境3、表连接原理【1】驱动表和被驱动表【2】内连接【3】外连接【4编程】嵌套循环连接【5】join buffer4、总结1、背景

SpringBoot连接Redis集群教程

《SpringBoot连接Redis集群教程》:本文主要介绍SpringBoot连接Redis集群教程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1. 依赖2. 修改配置文件3. 创建RedisClusterConfig4. 测试总结1. 依赖 <de

java连接opcua的常见问题及解决方法

《java连接opcua的常见问题及解决方法》本文将使用EclipseMilo作为示例库,演示如何在Java中使用匿名、用户名密码以及证书加密三种方式连接到OPCUA服务器,若需要使用其他SDK,原理... 目录一、前言二、准备工作三、匿名方式连接3.1 匿名方式简介3.2 示例代码四、用户名密码方式连接4

MySQL 表的内外连接案例详解

《MySQL表的内外连接案例详解》本文给大家介绍MySQL表的内外连接,结合实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录表的内外连接(重点)内连接外连接表的内外连接(重点)内连接内连接实际上就是利用where子句对两种表形成的笛卡儿积进行筛选,我

Apache 高级配置实战之从连接保持到日志分析的完整指南

《Apache高级配置实战之从连接保持到日志分析的完整指南》本文带你从连接保持优化开始,一路走到访问控制和日志管理,最后用AWStats来分析网站数据,对Apache配置日志分析相关知识感兴趣的朋友... 目录Apache 高级配置实战:从连接保持到日志分析的完整指南前言 一、Apache 连接保持 - 性

电脑蓝牙连不上怎么办? 5 招教你轻松修复Mac蓝牙连接问题的技巧

《电脑蓝牙连不上怎么办?5招教你轻松修复Mac蓝牙连接问题的技巧》蓝牙连接问题是一些Mac用户经常遇到的常见问题之一,在本文章中,我们将提供一些有用的提示和技巧,帮助您解决可能出现的蓝牙连接问... 蓝牙作为一种流行的无线技术,已经成为我们连接各种设备的重要工具。在 MAC 上,你可以根据自己的需求,轻松地

宝塔安装的MySQL无法连接的情况及解决方案

《宝塔安装的MySQL无法连接的情况及解决方案》宝塔面板是一款流行的服务器管理工具,其中集成的MySQL数据库有时会出现连接问题,本文详细介绍两种最常见的MySQL连接错误:“1130-Hostisn... 目录一、错误 1130:Host ‘xxx.xxx.xxx.xxx’ is not allowed