基于python的心脏病个人指数数据集数据处理——结课论文

2023-11-04 02:50

本文主要是介绍基于python的心脏病个人指数数据集数据处理——结课论文,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言:此论文是小赵的python数据分析与应用的结课作业未上传论文涉及的所有数据集,本论文所涉及的数据预处理,数据分析和可视化仅以这些数据集为准,所有处理方法,结果以及结论仅个人观点。

心脏病个人指数数据集数据处理

摘要:

    本论文包含了对心脏病个人指数数据集的概述,数据预处理,数据可视化以及数据分析还有相关代码,整体论文实现以下内容:数据预处理,包括异常数据处理,缺省数据处理,重复值处理,数据标准化;数据可视化,包括受访人员性别比例可视化,种族分布可视化,睡眠时长可视化,心理健康和身体健康情况可视化;数据分析,包括年龄与心脏病的关系,抽烟,喝酒与心脏病的关系,BMI值与心脏病的关系,也包括了这些功能实现的操作步骤以及处理过程和详细代码。本论文所涉及的数据预处理,数据分析仅以此数据集为准,所有处理方法,结果以及结论仅个人观点。

目  录

1. 数据集概述

2. 数据预处理

2.1 缺省数据处理. 

2.2 重复值处理. 

2.3 异常数据处理. 

2.4 数据标准化. 

3. 数据可视化

3.1 受访人员性别分布可视化. 

3.2 种族比例可视化. 

3.3 睡眠时长可视化. 

3.4 心理健康和身体健康情况可视化. 

4. 数据分析

4.1 年龄与心脏病的关系. 

4.2 抽烟,重度饮酒与心脏病的关系. 

4.3 BMI值与心脏病患者的关系. 

5. 代码.

数据预处理

数据可视化

数据分析


心脏病个人指数数据集数据处理

1. 数据集概述

该数据集来自美国疾病控制与预防中心,是行为风险因素监测系统(BRFSS)的主要组成部分,该系统每年进行电话调查,收集美国居民健康状况的数据。正如美国疾病控制与预防中心所描述的那样:“BRFSS成立于1984年,在15个州建立,现在在所有50个州以及哥伦比亚特区和3个美国领地收集数据。BRFSS每年完成40多万名成年人的访谈,使其成为世界上最大的连续进行的健康调查系统。

最近的数据集(截至2022年2月15日)包含了2020年的数据。它由401,958行和279列组成。大部分栏目都是针对受访者的健康状况的问题,如“你走路或爬楼梯有严重困难吗?”或“你一生中吸过至少100支烟吗?”。

背景描述

据美国疾病控制与预防中心的数据,心脏病是美国大多数种族(非裔美国人、美国印第安人、阿拉斯加原住民和白人)的主要死因之一。大约一半的美国人(47%)至少有三种导致心脏病的主要风险因素中的一种:高血压、高胆固醇和吸烟。其他关键指标包括糖尿病状况、肥胖(BMI高)、缺乏体育活动或饮酒过多。发现和预防对心脏病有最大影响的因素在医疗保健中非常重要。反过来,计算技术的发展使得机器学习方法的应用能够从数据中检测出“模式”,从而预测病人的病情。

数据说明

该数据集包含18个变量(9个布尔值,5个字符串和4个小数点)。在机器学习项目中,“HeartDisease ”可以用作探究变量,但请注意,类是严重失衡的。

数据名称数据说明
1HeartDisease-曾报告患有冠心病(CHD)或心肌梗死(MI)的受访者
2

BMI

-身体质量指数(BMI)
3Smoking-你一生中至少抽过100支烟吗?
4AlcoholDrinking-重度饮酒者(成年男性每周饮酒超过14杯,成年女性每周饮酒超过7杯
5

Stroke

-中风
6PhysicalHealth-现在想想你的身体健康,包括身体疾病和受伤,在过去的30天里,有多少天你的身体健康不好?(0-30天)
7

MentalHealth

-心理健康,在过去的30天里有多少天你的心理健康不好?(0-30天)
8DiffWalking-你走路或爬楼梯有严重困难吗?
9Sex-性别
10

AgeCategory

-年龄范畴
11Race-种族/民族
12Diabetic-是否有糖尿病?
13PhysicalActivity-过去30天里从事体育活动或锻炼的成年人
14GenHealth-你是否认为你的健康状况?
15

SleepTime

-平均来说,你在24小时内的睡眠时间是多少小时?
16Asthma-是否得有哮喘?
17

KidneyDisease

-不包括肾结石、膀胱感染或尿失禁,你是否曾被告知有肾病?
18SkinCancer-是否得过皮肤癌?

表1-1 数据集数据说明

原始数据集部分数据如下:

图 1‑1 数据集部分数据截图

2. 数据预处理

2.1  缺省数据处理

首先我们先将数据集导入,接下来查看一下heart数据集的基本信息,来观察数据集包含的数据类型,再用isnull()函数来查看数据集是否有缺省值,处理过程和效果如下图2-1-1和2-1-2所示     

    图 2-1-1 查看数据集基本信息                               

图 2-1-2 判断数据集是否有缺省值

从结果可以看出:

(1)一共319795条信息,这是个大数据集

(2)一共18个特征,其中4个浮点型数据,14个引用型数据

(3)所有数据均完整,无缺失

因此不需要对heart数据集进行缺省数据处理。

2.2 重复值处理

先用duplicated()方法进行逻辑判断,确定是否有重复值,处理过程如所示

图 2-2-1 判断数据集是否有重复值

再用duplicates(subset,keep,inplace)方法对某几列下面的重复行删除

subset:以哪几列作为基准列,判断是否重复,如果不写则默认所有列都要重复才算

keep: 保留哪一个,fist-保留首次出现的,last-保留最后出现的,False-重复的一个都不保留,默认为first

那么在这里我对重复的数据进行的操作是将数据集中所有列数据都重复的行进行删除,将重复值删除后的数据集保存为data1.csv文件,处理过程如所示

图 2-2-1 判断数据集是否有重复值

2.3 异常数据处理

检测数据异常值的方法有很多种,如3σ原则,箱线图分析等等,我这里选择的是使用箱线图来检测数据集的异常值,局限性是只能检测到列为数值型的数据,本次异常数据处理是基于data1.csv数据集上进行的,将处理后的数据集保存到data2.csv文件,操作过程和效果分别如下图2-3-1和图2-3-2所示。

图 2-3-1 异常数据处理过程

图 2-3-2 异常数据处理箱线图

2.4 数据标准化

数据标准化是基于data2.csv数据集上进行的,这里由于数据集有213956条数据,同样局限于数值型数据,我采用的是离差法标准化。

由于数据庞大,那么我们截取BMI,PhysicalHealth,MentalHealth,SleepTime四列数值型数据的前5行,操作过程如下图2-4-1所示

图 2-4-1 数据集数值型数据前五行

接下来,对数据集中的数值型数据进行离差标准化处理:打印出离差标准化处理前的前五行数据,和离差标准化处理后的前五行数据,并将标准化后的数据集保存至data.csv文件,操作过程和效果如下图2-4-2所示。

图 2-4-2 数据标准化处理过程与效果

3. 数据可视化

3.1 受访人员性别分布可视化

统计出受访人员的各个性别的人数,并使用直方图方式绘制出可视化图形,如图3-1所示。,具体操作步骤如下图3-1-1和3-1-2所示。

图 3-1-1 受访人员性别分布可视化处理过程

图 3-1-2 受访人员性别分布可视化效果

3.2 种族比例可视化

       计算出受访人员的种族分布,然后统计出各个种族的人数,并使用饼图方式绘制出可视化图形,如图3-2所示,处理过程与效果如下图3-2-1和3-2-2所示,每个扇形表示一种情况,扇形的大小表示对应的人数比例。

图 3-2-1 种族比例可视化处理过程

图 3‑2-2种族比例饼图

3.3睡眠时间分布可视化

统计出受访人员各个睡眠时长分布,并使用直方图方式绘制出可视化图形,如图3-3所示,处理过程和效果如图3-3-1和3-3-2所示。

图 3‑3-1睡眠时间分布处理过程

图 3‑3-2睡眠时间分布直方图

3.4心理健康程度和身体健康程度分布可视化

统计出受访人员心理健康程度和身体健康程度分布,并使用折线图方式绘制出可视化图形,如图3-4所示,操作步骤如下:

图 3-4-1 心理健康程度和身体健康程度分布可视化处理过程

图 3‑4-2心理健康程度和身体健康程度分布折线图

4. 数据分析

4.1 年龄与心脏病的关系

统计出不同年龄段的人员数量分布,并对不同年龄段的心脏病患者进行统计,使用散点图的方式绘制出可视化图形,如图 4‑1所示,处理过程与效果如图4-1-1和4-1-2所示。

通过分析散点图4-1-2可得,从整体上说,随着年龄越大,心脏病患者的人数也越多,所以可以得出随着年龄的增长,患心脏病的概率也会增大。

图 4-1-1年龄与心脏病关系分析过程

图 4‑1-2年龄与心脏病的关系散点图

4.2 抽烟,重度饮酒与心脏病的关系

4.2.1抽烟与心脏病的关系

统计一个数据集中是否抽烟与是否是心脏病患者排列组合四种情况(抽烟且患有心脏病,不抽烟且患有心脏病,抽烟且不患有心脏病,不抽烟且患有心脏病)的人数,通过比例来分析抽烟与心脏病的联系,处理过程如下,结果如图4-2-1所示,每个扇形表示一种情况,扇形的大小表示对应的人数比例。

#首先,导入所需的库:

import pandas as pd

import matplotlib.pyplot as plt

#使用pandas读取数据集:

data = pd.read_csv('data2.csv')

#接下来,可以使用pandas的groupby函数对数据进行分组统计:

count = data.groupby(['Smoking', ' HeartDisease']).size().reset_index(name='人数')

#最后,使用matplotlib库绘制饼图:

plt.pie(count['人数'], labels=count['Smoking'] + ' ' + count[' HeartDisease '], autopct='%1.1f%%')

plt.axis('equal')

plt.show()

图 4-2-1抽烟与心脏病的关系饼图

       通过分析图4-2-1可得,是否抽烟与心脏病患者的关系并不大,不能说明是否抽烟与心脏病患者存在什么明显的关系。

统计数据集中心脏病患者中抽烟人数的占比,再使用饼图的方式绘制出可视化图形表示他们的关系,如图4-2-4所示,每个扇形表示一种情况,扇形的大小表示对应的人数比例。

图 4-2-2心脏病患者中抽烟人数的占比饼图

通过分析图4-2-2可得,心脏病患者中有55.3%的人抽烟,可以说明抽烟会提高患有心脏病的概率。

4.2.2重度饮酒与心脏病的关系

统计数据集中重度饮酒与是否是心脏病患者排列组合四种情况(重度饮酒且患有心脏病,不重度饮酒且患有心脏病,重度饮酒且不患有心脏病,不重度饮酒且不患有心脏病)的人数,通过比例来分析抽烟与心脏病的联系,如图4-2-3所示,每个扇形表示一种情况,扇形的大小表示对应的人数比例。

#首先,导入所需的库:

import pandas as pd

import matplotlib.pyplot as plt

#使用pandas读取数据集:

data = pd.read_csv('data2.csv')

#接下来,可以使用pandas的groupby函数对数据进行分组统计:

count=data.groupby(['AlcoholDrinking','HeartDisease']).size().reset_index(name='人数')

#最后,使用matplotlib库绘制饼图:

plt.pie(count['人数'], labels=count['AlcoholDrinking'] + ' ' + count[' HeartDisease '], autopct='%1.1f%%')

plt.axis('equal')

plt.show()

图 4‑2-3喝酒与心脏病的关系饼图

通过分析图4-2-3可得,是否抽烟与心脏病患者的关系并不大,不能说明是否抽烟与心脏病患者存在什么明显的关系。

统计数据集中心脏病患者中重度喝酒人数的占比,再使用饼图的方式绘制出可视化图形表示他们的关系,如图4-2-4所示,每个扇形表示一种情况,扇形的大小表示对应的人数比例。

图 4-2-4喝酒与心脏病患者的关系饼图

通过分析图4-2-4可得,心脏病患者中仅有4.0%的人重度饮酒,可以说明重度饮酒不会提高患有心脏病的概率。

4.2.3抽烟,重度饮酒与心脏病的关系

统计数据集中是否抽烟与是否是冠心病患者和是否是饮酒的排列组合六种情况(抽烟重度饮酒患心脏病,抽烟不喝酒患心脏病,抽烟不重度饮酒不患冠心病,不抽烟但重度饮酒患心脏病,不抽烟但重度饮酒酒不患冠心病,不抽烟不重度饮酒不患冠心病 )的人数,并使用饼图进行可视化,处理过程如下,结果如下图4-2-5所示,每个扇形表示一种情况,扇形的大小表示对应的人数比例。

#导入所需的库:

import pandas as pd

import matplotlib.pyplot as plt

#使用pandas读取数据集:

data = pd.read_csv('data2.csv')

#使用pandas的groupby函数对数据进行分组统计,得到六种情况的人数:

count = data.groupby(['Smoking', 'HeartDisease', ' AlcoholDrinking ']).size().reset_index(name='人数')

#使用matplotlib库绘制饼图:

plt.pie(count['人数'], labels=count[' Smoking '] + ' ' + count[' HeartDisease '] + ' ' + count[' AlcoholDrinking '], autopct='%1.1f%%')

plt.axis('equal')

plt.show()

图 4-2-5抽烟,喝酒与心脏病患者的关系饼图

通过分析图4-2-5可得,仅抽烟,仅喝酒或既喝酒又抽烟与心脏病患者的关系并不大,不能说明他们存在什么明显的关系。

4.3 BMI值与心脏病患者的关系

统计数据集中心脏病患者不同BMI值的的数量,并以直方图的方式可视化数据,处理过程如下,结果如图4-3-1 所示。

通过分析图4-3-1 ,心脏病患者的人数随BMI值正态分布,BMI值越靠近中间,心脏病患者的人数越多,从中间向两边呈递减趋势。

import pandas as pd

import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = ['SimHei']

data = pd.read_csv('data2.csv')

count = data[data['HeartDisease'] == 'Yes']['BMI'].value_counts().sort_index()

plt.hist(data[data['HeartDisease'] == 'Yes']['BMI'], bins=10, edgecolor='black')

plt.xlabel('BMI值')

plt.ylabel('人数')

plt.title('心脏病患者的BMI值分布')

plt.show()

图 4-3-1 BMI值与心脏病患者的关系直方图

5. 代码

数据预处理

缺省数据处理:

#导入所需库import numpy as npimport pandas as pd#画图import matplotlib.pyplot as plt# 导入数据集"heart_2020_cleaned.csv"heart = pd.read_csv('heart_2020_cleaned.csv')# 查看一下数据heart.head()# 查看一下heart数据集的基本信息heart.info()#查看缺省数据并总计heart.isnull().sum()

重复数据处理:

#先用duplicated()方法进行逻辑判断,确定是否有重复值data=pd.read_csv("heart_2020_cleaned.csv",encoding='gbk')#打印出重复值的数量print(data.duplicated().value_counts())#再用duplicates(subset,keep,inplace)方法对某几列下面的重复行删除#subset:以哪几列作为基准列,判断是否重复,如果不写则默认所有列都要重复才算#keep: 保留哪一个,fist-保留首次出现的,last-保留最后出现的,False-重复的一个都不保留,默认为first#那么在这里我对重复的数据进行的操作是将数据集中所有列数据都重复的行进行删除。data1=data.drop_duplicates(subset=None,keep='first',inplace=False)print(data1.duplicated().value_counts())#并将删除重复值后的数据保存到data1.csv文件data1.to_csv('data1.csv')

异常值处理:

data1=pd.read_csv('data1.csv')#需要检测异常值的列为这四列col_list=['BMI','PhysicalHealth','MentalHealth','SleepTime']def remove_outliers(data1,col_list):#定义一个函数来检测和删除异常值outliers_count=0#记录异常值数量for col in col_list:q1=data1[col].quantile(0.25)q3=data1[col].quantile(0.75)iqr=q3-q1#计算四分位距lower_bound=q1-1.5*iqr#计算下限upper_bound=q3+1.5*iqr#计算上限outliers=data1[(data1[col]<lower_bound)|(data1[col]>upper_bound)].index#找出异常值所在的行outliers_count+=len(outliers) #记录异常值数量data1=data1.drop(outliers)#删除包含异常值的行print('一共有%d个异常值'%outliers_count)#打印异常值的数量return data1data1[col_list].boxplot()#使用matplotlib库绘制箱线图来可视化数据plt.show()data2=remove_outliers(data1,col_list)data2.to_csv('data2.csv')#将删除异常值后的数据集保存为data2.csv文件

数据标准化:

#打印前几行数值型数据print(data2.loc[:10,['BMI','PhysicalHealth','MentalHealth','SleepTime']])#导入数据集data= pd.read_csv('data2.csv',index_col=0,encoding='gbk')def MinMaxScale(data):data=(data-data.min())/(data.max()-data.min())return datadataA=MinMaxScale(data['BMI'])dataB=MinMaxScale(data['PhysicalHealth'])dataC=MinMaxScale(data['MentalHealth'])dataD=MinMaxScale(data['SleepTime'])data1=pd.concat([dataA,dataB,dataC,dataD],axis=1)print('前的数据为:\n',data[['BMI','PhysicalHealth','MentalHealth','SleepTime']].head())print('后的数据为:\n',data1.head())data1.to_csv('data3.csv')#将数据标准化后的四列数据保存为data3.csv文件

数据可视化

受访性别比例:

import pandas as pdfrom pylab import mpl mpl.rcParams['font.sans-serif'] = ['SimHei']# 读取数据集data = pd.read_csv("data2.csv")# 统计男女人数gender_counts = data["Sex"].value_counts()male_count = gender_counts["Male"]female_count = gender_counts["Female"]# 打印结果print("男性人数:", male_count)print("女性人数:", female_count)import matplotlib.pyplot as plt# 生成横坐标和纵坐标数据x = ['Male', 'Female']y = [male_count, female_count]# 绘制直方图plt.bar(x, y)# 设置横坐标和纵坐标标签plt.xlabel('性别')plt.ylabel('人数')# 设置图标题plt.title('受访人员性别分布')# 显示图形plt.show()

种族分布可视化:

import pandas as pdimport matplotlib.pyplot as plt# 读取数据集data = pd.read_csv('data.csv')# 统计每种种族的人数count = data['Race'].value_counts()# 绘制饼图plt.pie(count, labels=count.index.tolist(), autopct='%1.1f%%')plt.title('Distribution of Races')plt.show()

睡眠时间分布可视化:

import pandas as pdimport matplotlib.pyplot as plt# 读入数据集data = pd.read_csv('data2.csv')# 获取睡眠时间列的值,并计算每个唯一值的数量sleep_time_values = data['SleepTime'].value_counts()# 绘制直方图plt.bar(sleep_time_values.index, sleep_time_values.values)plt.xlabel('Sleep Time')plt.ylabel('Count')plt.title('Histogram of Sleep Time')plt.show()

数据分析

年龄与心脏病患者的关系:

import pandas as pdimport matplotlib.pyplot as plt# 读取数据集并选取年龄范围和冠心病患者两列data = pd.read_csv('data2.csv')age_range = data['AgeCategory']has_heart_disease = data['HeartDisease']# 统计年龄范围中不同值的数量,并保存到一个字典中age_dict = {}for age in age_range:if age in age_dict:age_dict[age] += 1else:age_dict[age] = 1# 计算每个年龄段的冠心病患者数量,并保存到两个列表中age_list = []count_list = []has_disease_list = []for age, count in age_dict.items():age_list.append(age)count_list.append(count)age_data = data[data['AgeCategory'] == age]['HeartDisease']has_disease_count = age_data[age_data == 'yes'].count()has_disease_list.append(has_disease_count)# 绘制散点图plt.scatter(age_list, count_list, label='总人数')plt.scatter(age_list, has_disease_list, label='冠心病患者数')plt.xlabel('年龄段')plt.ylabel('数量')plt.legend()plt.show()

抽烟,重度饮酒与心脏病的关系

抽烟与心脏病的关系:

#首先,导入所需的库:import pandas as pdimport matplotlib.pyplot as plt#使用pandas读取数据集:data = pd.read_csv('data2.csv')#接下来,可以使用pandas的groupby函数对数据进行分组统计:count = data.groupby(['Smoking', ' HeartDisease']).size().reset_index(name='人数')#最后,使用matplotlib库绘制饼图:plt.pie(count['人数'], labels=count['Smoking'] + ' ' + count[' HeartDisease '], autopct='%1.1f%%')plt.axis('equal')plt.show()

重度饮酒与心脏病的关系:

#首先,导入所需的库:import pandas as pdimport matplotlib.pyplot as plt#使用pandas读取数据集:data = pd.read_csv('data2.csv')#接下来,可以使用pandas的groupby函数对数据进行分组统计:count=data.groupby(['AlcoholDrinking','HeartDisease']).size().reset_index(name='人数')#最后,使用matplotlib库绘制饼图:plt.pie(count['人数'], labels=count['AlcoholDrinking'] + ' ' + count[' HeartDisease '], autopct='%1.1f%%')plt.axis('equal')plt.show()

抽烟,重度饮酒与心脏病的关系:

#导入所需的库:import pandas as pdimport matplotlib.pyplot as plt#使用pandas读取数据集:data = pd.read_csv('data2.csv')#使用pandas的groupby函数对数据进行分组统计,得到六种情况的人数:count = data.groupby(['Smoking', 'HeartDisease', ' AlcoholDrinking ']).size().reset_index(name='人数')#使用matplotlib库绘制饼图:plt.pie(count['人数'], labels=count[' Smoking '] + ' ' + count[' HeartDisease '] + ' ' + count[' AlcoholDrinking '], autopct='%1.1f%%')plt.axis('equal')plt.show()

BMI值与心脏病患者的关系:

import pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei']data = pd.read_csv('data2.csv')count = data[data['HeartDisease'] == 'Yes']['BMI'].value_counts().sort_index()plt.hist(data[data['HeartDisease'] == 'Yes']['BMI'], bins=10, edgecolor='black')plt.xlabel('BMI值')plt.ylabel('人数')plt.title('心脏病患者的BMI值分布')plt.show()

这篇关于基于python的心脏病个人指数数据集数据处理——结课论文的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/342712

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss