机器学习笔记:如何用MLflow管理模型生命周期

2023-11-29 02:18

本文主要是介绍机器学习笔记:如何用MLflow管理模型生命周期,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1

MLflow介绍

MLflow是一个解决机器学习生命周期管理的平台,在上面对模型进行跟踪、重现、管理和部署。

MLFlow解决了如下几个问题:

1、算法训练实验难于追踪,所以我们需要有一个实验管理工具Tracking。这个工具能够记录算法,算法参数,模型结果,效果等数据。

2、算法脚本难于重复运行,原因很多,比如代码版本,模型参数,还有运行环境。解决办法就是所有的算法项目应该都有一套标准的Projects概念,记录下来这些东西,并且这个Projects是可以拟合所有算法框架的。

3、部署模型是一个艰难的过程,ML界目前还没有一个标准的打包和部署模型的机制。解决的办法是Models概念,Models提供了工具和标准帮助你部署各种算法框架的模型。

MLflow提供了三个主要组件:

  • MLflow 跟踪模块 ,用于记录实验数据的API和UI,其中的数据包括参数、代码版本、评价指标和使用过的输出文件。

  • MLflow 项目模块 ,用于可重现性运行的一种代码封装格式,将代码封装在MLflow项目中,可以指定其中的依赖关系,并允许任何其他用户稍后再次运行它,并可靠地对结果进行重现。

  • MLflow 模型模块 ,一种简单的模型封装格式,允许将模型部署到许多工具。例如,如果将模型封装为一个Python函数,MLflow模型就可以将其部署到Docker或Azure ML进行线上服务,部署到Apache Spark进行批量打分。

2

数据集介绍

这里使用的是Kaggle竞赛题中预测信用卡风险客户的数据集,数据链接:

https://www.kaggle.com/c/home-credit-default-risk/data。

其中有一张表中是HomeCredit_columns.csv,记录了每个栏位的含义。数据集任务是需要判断每单申请信贷资金的风险等级,这是一个比较明确的二分类任务。这里我们主要使用:

  • application_train.csv

  • application_test.csv

3

特征工程

train文件相较于test文件多了一栏目标变量TARGET,Kaggle上有一句非常经典的话,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。通过总结和归纳,特征工程的步骤主要包括:

from sklearn.preprocessing import LabelEncoder
import pickle
import pandas as pdtrain_data = pd.read.csv("./application_train.csv")
print(application_train.select_dtypes(include=['object']).head())le = LabelEncoder() 
train_data['ORGANIZATION_TYPE'] = le.fit_transform(train_data['ORGANIZATION_TYPE'].values.tolist()+["UNKNOWN"])
output = open('ORGANIZATION_TYPE.pkl', 'wb')
pickle.dump(le, output)
output.close()# test文件转换
test_data = pd.read.csv("./application_test.csv")
pkl_file = open('ORGANIZATION_TYPE.pkl', 'rb')
le_origanization = pickle.load(pkl_file) 
pkl_file.close()
# 查看transformer中类别
print(le_origanization.classes_)
# 替换test中ORGANIZATION_TYPE未出现在train文件中为"UNKNOWN"
ORGANIZATION_TYPE_diff = set(test_data["ORGANIZATION_TYPE"])-set(train_data["ORGANIZATION_TYPE"])
if len(ORGANIZATION_TYPE_diff)>0:replace_dict = dict(zip(list(ORGANIZATION_TYPE_diff),len(list(ORGANIZATION_TYPE_diff))*["UNKNOWN"]))test_data["ORGANIZATION_TYPE"].replace(replace_dict,inplace=True)test_data['ORGANIZATION_TYPE'] = le_departure.transform(test_data['ORGANIZATION_TYPE'])

实际工程实施中,离线跑批模型是将特征工程加工过程提交到spark、Hadoop等大数据平台上进行的,产出变量宽表后再进行预测。上面的LabelEncoder与StandardScaler步骤是需要在sql文件中加工完成的。

4

模型训练

当特征工程完成后,可以使用MLflow Tracking API记录模型运行参数,

import argparse
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, log_loss, roc_auc_score
import xgboost as xgb
import mlflow
import mlflow.xgboostdef parse_args():parser = argparse.ArgumentParser(description='XGBoost example')parser.add_argument('--max-depth', type=int, default=3,help='Maximum depth of a tree. Increasing this value will make the model more complex and more likely to overfit (default: 3)')parser.add_argument('--colsample-bytree', type=float, default=1.0,help='subsample ratio of columns when constructing each tree (default: 1.0)')parser.add_argument('--subsample', type=float, default=1.0,help='subsample ratio of the training instances (default: 1.0)')return parser.parse_args()def main():# parse command-line argumentsargs = parse_args()app_train_domain = pd.read_pickle("./app_train_domain.pkl")features_ids = app_train_domain['SK_ID_CURR']labels = app_train_domain['TARGET']features = app_train_domain.drop(columns = ['SK_ID_CURR', 'TARGET'])train_x, test_x, train_y, test_y = train_test_split(features, labels, random_state=11)dtrain = xgb.DMatrix(train_x, label = train_y)dtest = xgb.DMatrix(test_x, label = test_y)# enable auto loggingmlflow.xgboost.autolog()with mlflow.start_run():params={'booster':'gbtree','objective': 'binary:logistic','eval_metric': 'auc','max_depth':args.max_depth,'lambda':10,'subsample':args.subsample,'colsample_bytree':args.colsample_bytree,'min_child_weight':2,'eta': 0.025,'seed':0,'nthread':8,'silent':1}model=xgb.train(params,dtrain,num_boost_round=100,evals=[(dtrain, 'train'),(dtest, 'test')])y_proba = model.predict(dtest)auc = roc_auc_score(test_y, y_proba)# log metricsmlflow.log_metrics({'auc': auc})if __name__ == '__main__':main()

保存后运行代码,

python train.py --colsample-bytree 0.8 --subsample 0.9

或者以工程的方式运行,

mlflow run . -P colsample-bytree=0.8 -P subsample=0.85

输入

mlflow ui

即可在 http://127.0.0.1:5000 中看到模型运行结果,并进行多次结果的对比。

mlflow与众多机器学习框架都有相应的接口,例如通过:

mlflow.xgboost.save_model(model, "my_model")

将刚刚运行得到的模型进行保存,保存后得到的目录中包含:

  • conda.yaml 

  • MLmodel

  • model.xgb

最后利用model register功能将模型保存后,可以管理上线模型的版本:

from pprint import pprintclient = MlflowClient()
for rm in client.list_registered_models():pprint(dict(rm), indent=4)

这样就可以查看到所有Registered模型。

各位小伙伴如有兴趣交流,欢迎关注公众号留言勾搭

代码猴

在看点这里

这篇关于机器学习笔记:如何用MLflow管理模型生命周期的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/431084

相关文章

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

关于Maven生命周期相关命令演示

《关于Maven生命周期相关命令演示》Maven的生命周期分为Clean、Default和Site三个主要阶段,每个阶段包含多个关键步骤,如清理、编译、测试、打包等,通过执行相应的Maven命令,可以... 目录1. Maven 生命周期概述1.1 Clean Lifecycle1.2 Default Li

高效管理你的Linux系统: Debian操作系统常用命令指南

《高效管理你的Linux系统:Debian操作系统常用命令指南》在Debian操作系统中,了解和掌握常用命令对于提高工作效率和系统管理至关重要,本文将详细介绍Debian的常用命令,帮助读者更好地使... Debian是一个流行的linux发行版,它以其稳定性、强大的软件包管理和丰富的社区资源而闻名。在使用

SpringBoot使用minio进行文件管理的流程步骤

《SpringBoot使用minio进行文件管理的流程步骤》MinIO是一个高性能的对象存储系统,兼容AmazonS3API,该软件设计用于处理非结构化数据,如图片、视频、日志文件以及备份数据等,本文... 目录一、拉取minio镜像二、创建配置文件和上传文件的目录三、启动容器四、浏览器登录 minio五、

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

IDEA中的Kafka管理神器详解

《IDEA中的Kafka管理神器详解》这款基于IDEA插件实现的Kafka管理工具,能够在本地IDE环境中直接运行,简化了设置流程,为开发者提供了更加紧密集成、高效且直观的Kafka操作体验... 目录免安装:IDEA中的Kafka管理神器!简介安装必要的插件创建 Kafka 连接第一步:创建连接第二步:选

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06