【Kaggle】练习赛《鲍鱼年龄预测》(上)

2024-04-07 02:28

本文主要是介绍【Kaggle】练习赛《鲍鱼年龄预测》(上),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

上一篇文章,讲解了《肥胖风险的多类别预测》机器学习方面的文章,主要是多分类算法的运用,本文是一个回归的算法,本期是2024年4月份的题目《Regression with an Abalone Dataset》即《鲍鱼年龄预测》,在此分享高手在这个比赛过程的代码。
由于内容比较多,分成两篇来完成,上篇着重 讲解数据探索( EDA) 方面,下篇讲解 建模优化方面。

题目简介

先上一张鲍鱼的图。
abalone
这一段话写得非常棒,我就直接引用了。

🚀 在这个激动人心的探索中,我们深入了解鲍鱼生物学的迷人世界。我们的使命?利用先进的机器学习技术,根据鲍鱼的身体测量结果预测鲍鱼的年龄。
我们的数据集是从对这些海洋软体动物的细致研究和观察中收集的信息宝库。🐚 从外壳尺寸到身体质量,我们拥有解开鲍鱼年龄预测秘密所需的所有工具。
但为什么这个预测任务很重要?鲍鱼的年龄传统上是通过费力的方法来确定的,包括外壳切片和显微镜检查。
🕵️‍♂️ 通过利用现成的物理测量,我们旨在简化这一过程,并提供更快、更高效的替代方案。
当我们开始这段旅程时,我们将深入研究数据集,探索鲍鱼的不同特征与年龄之间的关系。通过分类和回归技术,我们将努力将均方根对数误差(RMSLE)降至最低,并提供准确的预测。📊💡
所以,准备好让自己沉浸在鲍鱼生物学和预测建模的世界中。用决心和创新,让我们一起揭开鲍鱼年龄预测的奥秘!🌊🔍✨

加载库

保证完整性,这部分也写上了。

# 加载库
import warnings as wrn
wrn.filterwarnings('ignore', category = DeprecationWarning) 
wrn.filterwarnings('ignore', category = FutureWarning) 
wrn.filterwarnings('ignore', category = UserWarning) import optuna
import xgboost as xgb
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as stats
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import GroupKFold
from sklearn.metrics import accuracy_score, classification_report, mean_absolute_error
from sklearn.ensemble import RandomForestRegressor
from sklearn.svm import LinearSVC
from sklearn.preprocessing import RobustScaler
from sklearn.pipeline import make_pipeline
from sklearn.decomposition import PCA
from sklearn.model_selection import cross_val_score
from sklearn.metrics import make_scorer, accuracy_score, median_absolute_error
from imblearn.over_sampling import RandomOverSampler
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import mean_squared_error, r2_score
import lightgbm as lgb
import numpy as np
from scipy import stats

加载数据

# 加载所有数据
train_data = pd.read_csv("/kaggle/input/playground-series-s4e4/train.csv")
test_data = pd.read_csv("/kaggle/input/playground-series-s4e4/test.csv")
original_data = pd.read_csv('/kaggle/input/abalone-dataset/abalone.csv')

这里特别说明一下,这个original_data 是原始数据集,即来自于UCI。参考链接为:https://archive.ics.uci.edu/dataset/1/abalone

查看数据

y = train_data['Rings'] 
id_test = test_data['id']train_data = train_data.drop(['id'], axis = 1)
test_data = test_data.drop(['id'], axis = 1)train_data.columns = original_data.columns
test_data.columns = original_data.drop(['Rings'], axis=1).columns
train_data.head()
SexLengthDiameterHeightWhole weightShucked weightViscera weightShell weightRings
0F0.5500.4300.1500.77150.32850.14650.240011
1F0.6300.4900.1451.13000.45800.27650.320011
2I0.1600.1100.0250.02100.00550.00300.00506
3M0.5950.4750.1500.91450.37550.20550.250010
4I0.5550.4250.1300.78200.36950.16000.19759

训练集情况

# 查看数据结构num_train_rows, num_train_columns = train_data.shapenum_test_rows, num_test_columns = test_data.shapenum_original_rows, num_original_columns = original_data.shapeprint("Training Data:")
print(f"Number of Rows: {num_train_rows}")
print(f"Number of Columns: {num_train_columns}\n")print("Test Data:")
print(f"Number of Rows: {num_test_rows}")
print(f"Number of Columns: {num_test_columns}\n")print("Original Data:")
print(f"Number of Rows: {num_original_rows}")
print(f"Number of Columns: {num_original_columns}")

Training Data:
Number of Rows: 90615
Number of Columns: 9

Test Data:
Number of Rows: 60411
Number of Columns: 8

Original Data:
Number of Rows: 4177
Number of Columns: 9

# 查看重复缺失等情况missing_values_train = pd.DataFrame({'Feature': train_data.columns,'[TRAIN] No. of Missing Values': train_data.isnull().sum().values,'[TRAIN] % of Missing Values': ((train_data.isnull().sum().values)/len(train_data)*100)})missing_values_test = pd.DataFrame({'Feature': test_data.columns,'[TEST] No.of Missing Values': test_data.isnull().sum().values,'[TEST] % of Missing Values': ((test_data.isnull().sum().values)/len(test_data)*100)})missing_values_original = pd.DataFrame({'Feature': original_data.columns,'[ORIGINAL] No.of Missing Values': original_data.isnull().sum().values,'[ORIGINAL] % of Missing Values': ((original_data.isnull().sum().values)/len(original_data)*100)})unique_values = pd.DataFrame({'Feature': train_data.columns,'No. of Unique Values[FROM TRAIN]': train_data.nunique().values})feature_types = pd.DataFrame({'Feature': train_data.columns,'DataType': train_data.dtypes})merged_df = pd.merge(missing_values_train, missing_values_test, on='Feature', how='left')
merged_df = pd.merge(merged_df, missing_values_original, on='Feature', how='left')
merged_df = pd.merge(merged_df, unique_values, on='Feature', how='left')
merged_df = pd.merge(merged_df, feature_types, on='Feature', how='left')merged_df
Feature[TRAIN] No. of Missing Values[TRAIN] % of Missing Values[TEST] No.of Missing Values[TEST] % of Missing Values[ORIGINAL] No.of Missing Values[ORIGINAL] % of Missing ValuesNo. of Unique Values[FROM TRAIN]DataType
0Sex00.00.00.000.03object
1Length00.00.00.000.0157float64
2Diameter00.00.00.000.0126float64
3Height00.00.00.000.090float64
4Whole weight00.00.00.000.03175float64
5Shucked weight00.00.00.000.01799float64
6Viscera weight00.00.00.000.0979float64
7Shell weight00.00.00.000.01129float64
8Rings00.0NaNNaN00.028int64

数据无重复、无缺失

train_data.describe().T
countmeanstdmin25%50%75%max
Length90615.00.5170980.1182170.07500.44500.54500.60000.8150
Diameter90615.00.4016790.0980260.05500.34500.42500.47000.6500
Height90615.00.1354640.0380080.00000.11000.14000.16001.1300
Whole weight90615.00.7890350.4576710.00200.41900.79951.06752.8255
Shucked weight90615.00.3407780.2044280.00100.17750.33000.46301.4880
Viscera weight90615.00.1694220.1009090.00050.08650.16600.23250.7600
Shell weight90615.00.2258980.1302030.00150.12000.22500.30501.0050
Rings90615.09.6967943.1762211.00008.00009.000011.000029.0000
数据集特征说明
列名完整含义详细说明
‘id’id鲍鱼的唯一号
‘Sex’性别指示鲍鱼性别的分类变量。可能的值为M(男性)、F(女性)和I(婴儿)
‘Length’长度表示最长外壳测量值的连续变量,单位为毫米。
‘Diameter’直径表示外壳直径的连续变量,垂直于长度测量,单位为毫米。
‘Height’高度表示鲍鱼高度的连续变量,鲍鱼壳中有肉,单位为毫米。
‘Whole_weight’整体重量表示鲍鱼整体重量的连续变量,单位为克。
‘Shucked_weight’去皮重量表示肉(去皮后)重量的连续变量,单位为克。
‘Viscera_weight’内脏重量表示肠道重量(出血后)的连续变量,单位为克。
‘Shell_weight’贝壳重量表示贝壳重量(干燥后)的连续变量,单位为克。
‘Rings’以年为单位表示鲍鱼年龄的整数变量。+1.5的值表示实际年龄(以年为单位)。

该数据集为大量鲍鱼标本提供了一套全面的物理测量数据。包括分类变量和连续变量在内的各种特征使该数据集非常适合各种预测建模任务,特别是基于这些容易获得的物理特征预测鲍鱼年龄。目标变量Rings表示鲍鱼壳中的环数,这是动物年龄的代表。预测鲍鱼的年龄是一项具有挑战性的任务,因为传统的环数方法既耗时又乏味。因此,该数据集提供了一个机会,可以探索使用可用的物理测量来估计鲍鱼年龄的替代、更有效的方法。

数据探索 (EDA)

numerical_variables = ['Length', 'Diameter', 'Height', 'Whole weight', 'Shucked weight', 'Viscera weight', 'Shell weight']
target_variable = 'Rings'
categorical_variables = ['Sex']

特征分为数值型和分类型,本题 数据结构相对比较简单

数值型特征分布图

# 分析数值型特征# Define a custom color palette
custom_palette = ['#28ae80', '#d3eb0c', '#ff9a0b'
]# Add 'Dataset' column to distinguish between train and test data
train_data['Dataset'] = 'Train'
test_data['Dataset'] = 'Test'
original_data['Dataset'] = 'Original'variables = [col for col in train_data.columns if col in numerical_variables]# Function to create and display a row of plots for a single variable
def create_variable_plots(variable):sns.set_style('whitegrid')fig, axes = plt.subplots(1, 2, figsize=(12, 4))# Box plotplt.subplot(1, 2, 1)if variable == 'Whole weight.1' or variable == 'Whole weight.2':sns.boxplot(data=pd.concat([train_data, test_data]), x=variable, y="Dataset", palette=custom_palette)else:sns.boxplot(data=pd.concat([train_data, test_data, original_data.dropna()]), x=variable, y="Dataset", palette=custom_palette)plt.xlabel(variable)plt.title(f"Box Plot for {variable}", fontweight='bold', fontfamily='serif')# Separate Histogramsplt.subplot(1, 2, 2)if variable =='Whole weight.1' or variable =='Whole weight.2':sns.histplot(data=train_data, x=variable, color=custom_palette[0], kde=True, bins=30, label="Train")sns.histplot(data=test_data, x=variable, color=custom_palette[1], kde=True, bins=30, label="Test")else:sns.histplot(data=train_data, x=variable, color=custom_palette[0], kde=True, bins=30, label="Train")sns.histplot(data=test_data, x=variable, color=custom_palette[1], kde=True, bins=30, label="Test")sns.histplot(data=original_data.dropna(), x=variable, color=custom_palette[2], kde=True, bins=30, label="Original")plt.xlabel(variable)plt.ylabel("Frequency")plt.title(f"Histogram for {variable} [TRAIN, TEST & ORIGINAL]", fontweight='bold', fontfamily='serif')plt.legend()# Adjust spacing between subplotsplt.tight_layout()# Show the plotsplt.show()# Perform univariate analysis for each variable
for variable in variables:create_variable_plots(variable)# Drop the 'Dataset' column after analysis
train_data.drop('Dataset', axis=1, inplace=True)
test_data.drop('Dataset', axis=1, inplace=True)
original_data.drop('Dataset', axis=1, inplace=True)

1
2
3
45
6
7

分类型特征分布图
# 分析分类型特征# Define a custom color palette for categorical features
categorical_palette = ['#33638d', '#28ae80', '#d3eb0c', '#ff9a0b']# List of categorical variables
categorical_variables = [col for col in categorical_variables]# Function to create and display a row of plots for a single categorical variable
def create_categorical_plots(variable):sns.set_style('whitegrid')fig, axes = plt.subplots(1, 2, figsize=(12, 4))# Pie Chartplt.subplot(1, 2, 1)train_data[variable].value_counts().plot.pie(autopct='%1.1f%%', colors=categorical_palette, wedgeprops=dict(width=0.3), startangle=140)plt.title(f"Pie Chart for {variable}", fontweight='bold', fontfamily='serif')# Bar Graphplt.subplot(1, 2, 2)sns.countplot(data=pd.concat([train_data, test_data, original_data.dropna()]), x=variable, palette=categorical_palette)plt.xlabel(variable)plt.ylabel("Count")plt.title(f"Bar Graph for {variable} [TRAIN, TEST & ORIGINAL]", fontweight='bold', fontfamily='serif')# Adjust spacing between subplotsplt.tight_layout()# Show the plotsplt.show()# Perform univariate analysis for each categorical variable
for variable in categorical_variables:create_categorical_plots(variable)

在这里插入图片描述

目标特征分布图
# 分析目标特征target_palette = ['#3b528b','#1fa088','#9ee742','#d6f015','#e0d20a','#ffaa08','#ff522f','#d7043d']fig, axes = plt.subplots(1, 2, figsize=(12, 4))# Box plot
plt.subplot(1, 2, 1)
sns.boxplot(data=train_data, x=target_variable, palette=target_palette)
plt.xlabel(variable)
plt.title(f"Box Plot for {target_variable} [TRAIN]", fontweight='bold', fontfamily='serif')# Separate Histograms
plt.subplot(1, 2, 2)
sns.histplot(data=train_data, x=target_variable, color=target_palette[1], kde=True, bins=30, label="Train")
plt.xlabel(variable)
plt.ylabel("Frequency")
plt.title(f"Histogram for {target_variable} [TRAIN]", fontweight='bold', fontfamily='serif')
plt.legend()# Adjust spacing between subplots
plt.tight_layout()# Show the plots
plt.show()

在这里插入图片描述
数据集“环”表示鲍鱼壳中的环的数量,这是动物年龄的代表。该变量的值范围从1到29,根据具体问题和建模方法,可以将其视为连续变量和分类变量。

  1. 连续变量法:
  • 由于“环”变量代表鲍鱼的年龄,因此可以将其视为连续变量。
  • 这意味着这项任务可以作为一个回归问题来处理,其中的目标是根据可用的物理测量来预测每只鲍鱼的确切环数(年龄)。
  • 可以使用线性回归和决策树等建模技术来学习特征与连续“环”目标之间的关系。
  1. 分类变量法:
  • 或者,“环”变量可以被视为一个分类变量,其中不同的值(1到29)代表不同的年龄组或类别。
  • 在这种情况下,该任务可以被定义为一个分类问题,其中的目标是根据物理测量来预测每只鲍鱼的年龄组(类别)。
  • 可以使用逻辑回归、决策树或随机森林等建模技术来学习特征和分类“环”目标之间的映射。

连续变量法或分类变量法之间的选择取决于问题的具体要求和模型的预期用途。如果目标是预测鲍鱼的确切年龄,那么连续变量法可能更适合。然而,如果重点是将鲍鱼分为不同的年龄组,那么分类变量方法可能更合适。

我将探索这两种方法,并比较它们的性能,以确定为给定问题建模“环”变量的最佳方式。

偏度条形图
# 测量和比较所有特征之间的偏度,并使用条形图进行比较skew_merged = pd.DataFrame(data = train_data[numerical_variables].skew(), columns = ['Skewness'])
skew_sorted = skew_merged.sort_values(ascending = False, by = 'Skewness')sns.barplot(x=skew_sorted.Skewness, y=skew_sorted.index, palette='viridis')
plt.title('Skewness in Explanatory Variables', fontweight='bold', fontfamily='serif')
plt.xlabel('Value')
plt.ylabel('Skewness')
plt.show()

在这里插入图片描述

相关性热力图
# 计算相关性的热力图
corr_train = train_data[numerical_variables].corr()
corr_test = test_data[numerical_variables].corr()# Create masks for the upper triangle
mask_train = np.triu(np.ones_like(corr_train, dtype=bool))
mask_test = np.triu(np.ones_like(corr_test, dtype=bool))# Set the text size and rotation
annot_kws = {"size": 8, "rotation": 45}# Generate heatmaps for train_data
plt.figure(figsize=(18, 7))
plt.subplot(1, 2, 1)
ax_train = sns.heatmap(corr_train, mask=mask_train, cmap='viridis', annot=True,square=True, linewidths=.5, xticklabels=1, yticklabels=1, annot_kws=annot_kws)
plt.title('Correlation Heatmap - Train Data', fontweight='bold', fontfamily='serif')# Generate heatmaps for test_data
plt.subplot(1, 2, 2)
ax_test = sns.heatmap(corr_test, mask=mask_test, cmap='viridis', annot=True,square=True, linewidths=.5, xticklabels=1, yticklabels=1, annot_kws=annot_kws)
plt.title('Correlation Heatmap - Test Data', fontweight='bold', fontfamily='serif')# Adjust layout
plt.tight_layout()# Show the plots
plt.show()

在这里插入图片描述

特征分布散点图
fig, axes = plt.subplots(2, 4, figsize=(16, 8))
axes = axes.flatten()for i, feature in enumerate(numerical_variables):axes[i].scatter(train_data[feature], train_data['Rings'], s=5)axes[i].set_xlabel(feature)axes[i].set_ylabel('Rings')axes[i].set_title(f'Rings vs {feature}')plt.tight_layout()
plt.show()

在这里插入图片描述
散点图显示,物理测量值(长度、直径、高度、重量)与代表鲍鱼年龄的环数之间存在正相关关系。这表明,更大、更重的鲍鱼往往更老。

为了量化关系的强度,让我们计算“环”和连续特征之间的Pearson相关系数:

相关系数
correlations = train_data[numerical_variables + ['Rings']].corr()
print(correlations['Rings'])

Length 0.623786
Diameter 0.636832
Height 0.665772
Whole weight 0.617274
Shucked weight 0.515067
Viscera weight 0.588954
Shell weight 0.694766
Rings 1.000000
Name: Rings, dtype: float64

相关系数表明,所有物理测量值与环的数量都具有中等强度的正相关性,其中壳体重量具有最高的相关性(0.694766)。

性别(雄性、雌性和幼年)对鲍鱼的年龄分布是否存在差异?

性别对年龄的影响
# Bar plot to show the distribution of Rings for each Sex category
plt.figure(figsize=(8, 6))
train_data.groupby('Sex')['Rings'].mean().plot(kind='bar')
plt.xlabel('Sex')
plt.ylabel('Mean Rings')
plt.title('Mean Rings by Sex')
plt.show()

在这里插入图片描述
条形图:按性别划分的平均环

条形图显示了每个性别类别的戒指平均数量。
我们可以看到,雌性鲍鱼的平均环数高于雄性和幼年鲍鱼。

# Bar plot to show the distribution of Rings for each Sex category
plt.figure(figsize=(8, 6))
train_data.groupby('Sex')['Rings'].mean().plot(kind='bar')
plt.xlabel('Sex')
plt.ylabel('Mean Rings')
plt.title('Mean Rings by Sex')
plt.show()

在这里插入图片描述
盒图:按性别划分的环分布

盒图提供了《指环王》在性别类别中分布的更详细比较。
该图显示,雌性鲍鱼的环的中位数和四分位间距(IQR)略高于雄性和幼年鲍鱼。
对于所有类别,似乎也存在一些具有非常高环值的异常值。

建模
准备数据
dd={"M":0,"F":1,"I":2}
train_data['Sex'] = train_data['Sex'].map(dd)
text_data['Sex'] = test_data['Sex'].map(dd)
X=train.drop(["Rings"],axis=1)
加载各类算法
from sklearn.linear_model import LogisticRegression,LinearRegression
from sklearn.svm import SVC
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.naive_bayes import GaussianNB, BernoulliNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.gaussian_process import GaussianProcessClassifier
from sklearn.ensemble import RandomForestRegressor, ExtraTreesClassifier, GradientBoostingClassifier
from xgboost import XGBClassifier
from lightgbm import LGBMClassifier
from catboost import CatBoostClassifier
from sklearn.ensemble import HistGradientBoostingClassifier
from xgboost import XGBRegressor
from lightgbm import LGBMRegressor
from catboost import CatBoostRegressor
from sklearn.ensemble import RandomForestClassifier, ExtraTreesClassifier
from xgboost import XGBClassifier
from lightgbm import LGBMClassifier# Set a seed for reproducibility
seed = 42# Initialize all the classification models in the requested format
log_reg = LogisticRegression(random_state=seed, max_iter=1000000)
svc = SVC(random_state=seed, probability=True)
lda = LinearDiscriminantAnalysis()
gnb = GaussianNB()
bnb = BernoulliNB()
knn = KNeighborsClassifier()
gauss = GaussianProcessClassifier(random_state=seed)
rf = RandomForestRegressor(random_state=seed)
et = ExtraTreesClassifier(random_state=seed)
xgb = XGBRegressor(random_state=seed)
lgb = LGBMRegressor(random_state=seed, verbosity=0)
dart = LGBMClassifier(random_state=seed, boosting_type='dart')
cb = CatBoostRegressor(random_state=seed, verbose=0)
gb = GradientBoostingClassifier(random_state=seed)
hgb = HistGradientBoostingClassifier(random_state=seed)
lr = LinearRegression()
rf_classifier = RandomForestClassifier(random_state=seed)
et_classifier = ExtraTreesClassifier(random_state=seed)
xgb_classifier = XGBClassifier(random_state=seed)
lgb_classifier = LGBMClassifier(random_state=seed, verbosity=0)
cb_classifier = CatBoostClassifier(random_state=seed, verbose=0)
选出合适算法
import warnings
# Ignore all warnings
warnings.filterwarnings("ignore")from sklearn.metrics import mean_squared_log_error
import numpy as npdef rmsle(y_true, y_pred):return np.sqrt(mean_squared_log_error(y_true, y_pred))# Fit the models and calculate RMSLE
models = [xgb, lgb, cb, rf]
rmsle_scores = []for model in models:X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2,random_state=42)model.fit(X_train, y_train)y_pred = model.predict(X_test)score = rmsle(y_test, y_pred)rmsle_scores.append(score)# Create a DataFrame with the RMSLE scores
rmsle_df = pd.DataFrame(data=rmsle_scores, columns=['RMSLE'])
rmsle_df.index = ['xgb', 'lgb', 'cb', 'rf']
rmsle_df = rmsle_df.sort_values(by='RMSLE', ascending=False)# Create a bar graph using Seaborn
plt.figure(figsize=(12, 6))
barplot = sns.barplot(x='RMSLE', y=rmsle_df.index, data=rmsle_df, palette='viridis')# Add values on the bars with larger and bolder font
for index, value in enumerate(rmsle_df['RMSLE']):barplot.text(value + 0.001, index, str(round(value, 5)), ha='left', va='center', fontsize=12, fontweight='bold')plt.title("Models' RMSLE Scores", fontweight='bold', fontfamily='serif')
plt.xlabel('RMSLE')
plt.ylabel('Models')
plt.show()

在这里插入图片描述

小结

通上述EDA和Modeling 后,对数值结果有了一个初步的了解。不同的模型的结果情况有了一个最基础的 Baseline ,如何提高比赛成绩,将在下一篇做详细的说明。

这篇关于【Kaggle】练习赛《鲍鱼年龄预测》(上)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/881425

相关文章

kaggle竞赛宝典 | Mamba模型综述!

本文来源公众号“kaggle竞赛宝典”,仅用于学术分享,侵权删,干货满满。 原文链接:Mamba模型综述! 型语言模型(LLMs),成为深度学习的基石。尽管取得了令人瞩目的成就,Transformers仍面临固有的局限性,尤其是在推理时,由于注意力计算的平方复杂度,导致推理过程耗时较长。 最近,一种名为Mamba的新型架构应运而生,其灵感源自经典的状态空间模型,成为构建基础模型的有力替代方案

Tensorflow lstm实现的小说撰写预测

最近,在研究深度学习方面的知识,结合Tensorflow,完成了基于lstm的小说预测程序demo。 lstm是改进的RNN,具有长期记忆功能,相对于RNN,增加了多个门来控制输入与输出。原理方面的知识网上很多,在此,我只是将我短暂学习的tensorflow写一个预测小说的demo,如果有错误,还望大家指出。 1、将小说进行分词,去除空格,建立词汇表与id的字典,生成初始输入模型的x与y d

临床基础两手抓!这个12+神经网络模型太贪了,免疫治疗预测、通路重要性、基因重要性、通路交互作用性全部拿下!

生信碱移 IRnet介绍 用于预测病人免疫治疗反应类型的生物过程嵌入神经网络,提供通路、通路交互、基因重要性的多重可解释性评估。 临床实践中常常遇到许多复杂的问题,常见的两种是: 二分类或多分类:预测患者对治疗有无耐受(二分类)、判断患者的疾病分级(多分类); 连续数值的预测:预测癌症病人的风险、预测患者的白细胞数值水平; 尽管传统的机器学习提供了高效的建模预测与初步的特征重

结合Python与GUI实现比赛预测与游戏数据分析

在现代软件开发中,用户界面设计和数据处理紧密结合,以提升用户体验和功能性。本篇博客将基于Python代码和相关数据分析进行讨论,尤其是如何通过PyQt5等图形界面库实现交互式功能。同时,我们将探讨如何通过嵌入式预测模型为用户提供赛果预测服务。 本文的主要内容包括: 基于PyQt5的图形用户界面设计。结合数据进行比赛预测。文件处理和数据分析流程。 1. PyQt5 图形用户界面设计

CNN-LSTM模型中应用贝叶斯推断进行时间序列预测

这篇论文的标题是《在混合CNN-LSTM模型中应用贝叶斯推断进行时间序列预测》,作者是Thi-Lich Nghiem, Viet-Duc Le, Thi-Lan Le, Pierre Maréchal, Daniel Delahaye, Andrija Vidosavljevic。论文发表在2022年10月于越南富国岛举行的国际多媒体分析与模式识别会议(MAPR)上。 摘要部分提到,卷积

多维时序 | Matlab基于SSA-SVR麻雀算法优化支持向量机的数据多变量时间序列预测

多维时序 | Matlab基于SSA-SVR麻雀算法优化支持向量机的数据多变量时间序列预测 目录 多维时序 | Matlab基于SSA-SVR麻雀算法优化支持向量机的数据多变量时间序列预测效果一览基本介绍程序设计参考资料 效果一览 基本介绍 1.Matlab基于SSA-SVR麻雀算法优化支持向量机的数据多变量时间序列预测(完整源码和数据) 2.SS

力扣 | 递归 | 区间上的动态规划 | 486. 预测赢家

文章目录 一、递归二、区间动态规划 LeetCode:486. 预测赢家 一、递归 注意到本题数据范围为 1 < = n < = 20 1<=n<=20 1<=n<=20,因此可以使用递归枚举选择方式,时间复杂度为 2 20 = 1024 ∗ 1024 = 1048576 = 1.05 × 1 0 6 2^{20} = 1024*1024=1048576=1.05 × 10^

回归预测 | MATLAB实现PSO-LSTM(粒子群优化长短期记忆神经网络)多输入单输出

回归预测 | MATLAB实现PSO-LSTM(粒子群优化长短期记忆神经网络)多输入单输出 目录 回归预测 | MATLAB实现PSO-LSTM(粒子群优化长短期记忆神经网络)多输入单输出预测效果基本介绍模型介绍PSO模型LSTM模型PSO-LSTM模型 程序设计参考资料致谢 预测效果 Matlab实现PSO-LSTM多变量回归预测 1.input和outpu

时序预测|变分模态分解-双向时域卷积-双向门控单元-注意力机制多变量时间序列预测VMD-BiTCN-BiGRU-Attention

时序预测|变分模态分解-双向时域卷积-双向门控单元-注意力机制多变量时间序列预测VMD-BiTCN-BiGRU-Attention 文章目录 一、基本原理1. 变分模态分解(VMD)2. 双向时域卷积(BiTCN)3. 双向门控单元(BiGRU)4. 注意力机制(Attention)总结流程 二、实验结果三、核心代码四、代码获取五、总结 时序预测|变分模态分解-双向时域卷积

【go语言计算年龄生肖星座】go语言根据出生日期 计算年龄,所属星座,生肖

一、需求分析 go语言根据出生日期 计算年龄,所属星座,生肖 二、运行效果 "D:\Program Files (x86)\JetBrains\Gogland 171.3780.106\bin\runnerw.exe" D:/Go\bin\go.exe run D:/Go/code/src/awesomeProject/age_calculate.go24 狮子座 鸡Process fin