TrustGeo代码理解（七）preprocess.py

本文主要是介绍TrustGeo代码理解（七）preprocess.py，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

代码链接：https://github.com/ICDM-UESTC/TrustGeo

一、导入各种模块和数据库

# Load data and IP clusteringimport math
import random
import pandas as pd
import numpy as np
import argparse
from sklearn import preprocessing
from lib.utils import MaxMinScaler

加载数据和IP聚类，这些导入语句是为了引入在后续代码中可能会使用到的数学、随机数、数据处理等工具和库。

1、import math：导入 Python 的 math 模块，该模块提供了数学运算的函数。

2、import random：导入 Python 的 random 模块，该模块提供了生成伪随机数的函数。

3、import pandas as pd：导入 pandas 库，并将其简写为 pd，用于处理和分析数据。

4、import numpy as np：导入 numpy 库，并将其简写为 np，用于支持大量的维度数组和矩阵运算。

5、import argparse：导入 argparse 模块，用于解析命令行参数。

6、from sklearn import preprocessing：从 sklearn 库导入数据预处理模块 preprocessing，用于数据预处理。

7、from lib.utils import MaxMinScaler：从自定义的 lib.utils 模块中导入 MaxMinScaler 类。这可能是一个用于最大-最小归一化的工具类。

二、使用`argparse`库创建了一个命令行解析器

parser = argparse.ArgumentParser()parser.add_argument('--dataset', type=str, default='New_York', choices=["Shanghai", "New_York", "Los_Angeles"],help='which dataset to use')
parser.add_argument('--train_test_ratio', type=float, default=0.8, help='landmark ratio')
parser.add_argument('--lm_ratio', type=float, default=0.7, help='landmark ratio')
parser.add_argument('--seed', type=int, default=1234)opt = parser.parse_args()

这部分代码的功能是通过命令行输入来配置脚本的行为。用户可以在运行脚本时通过命令行参数指定数据集名称、训练集测试集比例、地标比例以及随机数生成的种子等参数。解析后，这些参数将在脚本中被引用，从而影响程序的行为。

1、parser = argparse.ArgumentParser()：创建一个ArgumentParser对象，用于解析命令行参数。

2、parser.add_argument('--dataset', type=str, default='New_York', choices=["Shanghai", "New_York", "Los_Angeles"],help='which dataset to use')：添加命令行参数。

3、parser.add_argument('--train_test_ratio', type=float, default=0.8, help='landmark ratio')：用于指定训练集和测试集的比例，默认值是 0.8。

4、parser.add_argument('--lm_ratio', type=float, default=0.7, help='landmark ratio')：用于指定地标的比例，默认值是 0.7。

5、parser.add_argument('--seed', type=int, default=1234)：用于指定随机数生成的种子，默认值是 1234。

6、opt = parser.parse_args()：解析命令行参数，并将解析结果存储在 opt 对象中。opt 对象将包含命令行传入的各个参数的值。

三、get_XY()

def get_XY(dataset):data_path = "./datasets/{}/data.csv".format(dataset)ip_path = './datasets/{}/ip.csv'.format(dataset)trace_path = './datasets/{}/last_traceroute.csv'.format(dataset)data_origin = pd.read_csv(data_path, encoding='gbk', low_memory=False)ip_origin = pd.read_csv(ip_path, encoding='gbk', low_memory=False)trace_origin = pd.read_csv(trace_path, encoding='gbk', low_memory=False)data = pd.concat([data_origin, ip_origin, trace_origin], axis=1)data.fillna({"isp": '0'}, inplace=True)# labelsY = data[['longitude', 'latitude']]Y = np.array(Y)# featuresif dataset == "Shanghai":  # Shanghai# classification featuresX_class = data[['orgname', 'asname', 'address', 'isp']]scaler = preprocessing.OneHotEncoder(sparse=False)X_class = scaler.fit_transform(X_class)X_class1 = data['isp']X_class1 = preprocessing.LabelEncoder().fit_transform(X_class1)X_class1 = preprocessing.MinMaxScaler().fit_transform(np.array(X_class1).reshape((-1, 1)))X_2 = data[['ip_split1', 'ip_split2', 'ip_split3', 'ip_split4']]X_2 = preprocessing.MinMaxScaler().fit_transform(np.array(X_2))X_3 = data[['aiwen_ping_delay_time', 'vp806_ping_delay_time', 'vp808_ping_delay_time', 'vp813_ping_delay_time']]delay_scaler = MaxMinScaler()delay_scaler.fit(X_3)X_3 = delay_scaler.transform(X_3)X_4 = data[['aiwen_tr_steps', 'vp806_tr_steps', 'vp808_tr_steps', 'vp813_tr_steps']]step_scaler = MaxMinScaler()step_scaler.fit(X_4)X_4 = step_scaler.transform(X_4)X_5 = data['asnumber']X_5 = preprocessing.LabelEncoder().fit_transform(X_5)X_5 = preprocessing.MinMaxScaler().fit_transform(np.array(X_5).reshape(-1, 1))X_6 = data[['aiwen_last1_delay', 'aiwen_last2_delay_total', 'aiwen_last3_delay_total', 'aiwen_last4_delay_total','vp806_last1_delay', 'vp806_last2_delay_total', 'vp806_last3_delay_total', 'vp806_last4_delay_total','vp808_last1_delay', 'vp808_last2_delay_total', 'vp808_last3_delay_total', 'vp808_last4_delay_total','vp813_last1_delay', 'vp813_last2_delay_total', 'vp813_last3_delay_total', 'vp813_last4_delay_total']]X_6 = np.array(X_6)X_6[X_6 <= 0] = 0X_6 = preprocessing.MinMaxScaler().fit_transform(X_6)X = np.concatenate([X_class1, X_class, X_2, X_3, X_4, X_5, X_6], axis=1) # dimension =51elif dataset == "New_York" or "Los_Angeles":  # New_York or Los_AngelesX_class = data['isp']X_class = preprocessing.LabelEncoder().fit_transform(X_class)X_class = preprocessing.MinMaxScaler().fit_transform(np.array(X_class).reshape((-1, 1)))X_2 = data[['ip_split1', 'ip_split2', 'ip_split3', 'ip_split4']]X_2 = preprocessing.MinMaxScaler().fit_transform(np.array(X_2))X_3 = data['as_mult_info']X_3 = preprocessing.LabelEncoder().fit_transform(X_3)X_3 = preprocessing.MinMaxScaler().fit_transform(np.array(X_3).reshape(-1, 1))X_4 = data[['vp900_ping_delay_time', 'vp901_ping_delay_time', 'vp902_ping_delay_time', 'vp903_ping_delay_time']]delay_scaler = MaxMinScaler()delay_scaler.fit(X_4)X_4 = delay_scaler.transform(X_4)X_5 = data[['vp900_tr_steps', 'vp901_tr_steps', 'vp902_tr_steps', 'vp903_tr_steps']]step_scaler = MaxMinScaler()step_scaler.fit(X_5)X_5 = step_scaler.transform(X_5)X_6 = data[['vp900_last1_delay', 'vp900_last2_delay_total', 'vp900_last3_delay_total', 'vp900_last4_delay_total','vp901_last1_delay', 'vp901_last2_delay_total', 'vp901_last3_delay_total', 'vp901_last4_delay_total','vp902_last1_delay', 'vp902_last2_delay_total', 'vp902_last3_delay_total', 'vp902_last4_delay_total','vp903_last1_delay', 'vp903_last2_delay_total', 'vp903_last3_delay_total', 'vp903_last4_delay_total']]X_6 = np.array(X_6)X_6[X_6 <= 0] = 0X_6 = preprocessing.MinMaxScaler().fit_transform(X_6)X = np.concatenate([X_2, X_class, X_3, X_4, X_5, X_6], axis=1) # dimension =30return X, Y, np.array(trace_origin)

这个函数用于从指定数据集加载并预处理数据，返回用于训练的特征 (X)、标签 (Y) 以及原始的跟踪数据 (trace_origin)。

分为几个部分展开描述：

（一）加载数据并处理

data_path = "./datasets/{}/data.csv".format(dataset)
ip_path = './datasets/{}/ip.csv'.format(dataset)
trace_path = './datasets/{}/last_traceroute.csv'.format(dataset)data_origin = pd.read_csv(data_path, encoding='gbk', low_memory=False)
ip_origin = pd.read_csv(ip_path, encoding='gbk', low_memory=False)
trace_origin = pd.read_csv(trace_path, encoding='gbk', low_memory=False)data = pd.concat([data_origin, ip_origin, trace_origin], axis=1)
data.fillna({"isp": '0'}, inplace=True)

这部分代码主要是从三个文件（data.csv、ip.csv、last_traceroute.csv）中加载数据，进行合并和预处理。

1、data_path = "./datasets/{}/data.csv".format(dataset)：构建包含数据文件路径的字符串，其中 {} 是一个占位符，将被 format(dataset) 中的 dataset 变量替代。

2、ip_path = './datasets/{}/ip.csv'.format(dataset)：构建包含 IP 地址文件路径的字符串。

3、trace_path = './datasets/{}/last_traceroute.csv'.format(dataset)：构建包含最后一次路由跟踪文件路径的字符串。

4、data_origin = pd.read_csv(data_path, encoding='gbk', low_memory=False)：使用 Pandas 库的 read_csv 函数从 data.csv 文件中读取数据。参数 encoding='gbk' 表示使用 gbk 编码读取文件，low_memory=False 表示禁用内存优化，以确保能够处理大型文件。

5、ip_origin = pd.read_csv(ip_path, encoding='gbk', low_memory=False)：从 ip.csv 文件中读取 IP 地址相关的数据。

6、trace_origin = pd.read_csv(trace_path, encoding='gbk', low_memory=False)：从 last_traceroute.csv 文件中读取最后一次路由跟踪的数据。

7、data = pd.concat([data_origin, ip_origin, trace_origin], axis=1)：将三个数据框按列（axis=1）进行拼接，形成一个包含所有信息的新数据框 data。

8、data.fillna({"isp": '0'}, inplace=True)：使用字符串 '0' 填充数据框中的缺失值，特别是 isp 列的缺失值。inplace=True 表示在原地修改数据框而不返回新的数据框。这个步骤主要是为了处理缺失值，将缺失的 isp 列中的值替换为 '0'。

（二）处理数据中的标签（labels）

# labels
Y = data[['longitude', 'latitude']]
Y = np.array(Y)

这部分代码的整体功能是从数据中提取经度和纬度两列，将它们存储在 NumPy 数组 Y 中，

这篇关于TrustGeo代码理解（七）preprocess.py的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

TrustGeo代码理解（七）preprocess.py

一、导入各种模块和数据库

二、使用`argparse`库创建了一个命令行解析器

三、get_XY()

（一）加载数据并处理

（二）处理数据中的标签（labels）

相关文章

springboot循环依赖问题案例代码及解决办法

使用C#代码在PDF文档中添加、删除和替换图片

C#使用SQLite进行大数据量高效处理的代码示例

用js控制视频播放进度基本示例代码

Spring Boot 3.4.3 基于 Spring WebFlux 实现 SSE 功能(代码示例)

java之Objects.nonNull用法代码解读

SpringBoot实现MD5加盐算法的示例代码

python+opencv处理颜色之将目标颜色转换实例代码

在C#中调用Python代码的两种实现方式

一文教你Python引入其他文件夹下的.py文件

TrustGeo代码理解（七）preprocess.py

一、导入各种模块和数据库

二、使用argparse库创建了一个命令行解析器

三、get_XY()

（一）加载数据并处理

（二）处理数据中的标签（labels）

相关文章

二、使用`argparse`库创建了一个命令行解析器