机器学习笔记:如何用MLflow管理模型生命周期

2023-11-29 02:18

本文主要是介绍机器学习笔记:如何用MLflow管理模型生命周期,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1

MLflow介绍

MLflow是一个解决机器学习生命周期管理的平台,在上面对模型进行跟踪、重现、管理和部署。

MLFlow解决了如下几个问题:

1、算法训练实验难于追踪,所以我们需要有一个实验管理工具Tracking。这个工具能够记录算法,算法参数,模型结果,效果等数据。

2、算法脚本难于重复运行,原因很多,比如代码版本,模型参数,还有运行环境。解决办法就是所有的算法项目应该都有一套标准的Projects概念,记录下来这些东西,并且这个Projects是可以拟合所有算法框架的。

3、部署模型是一个艰难的过程,ML界目前还没有一个标准的打包和部署模型的机制。解决的办法是Models概念,Models提供了工具和标准帮助你部署各种算法框架的模型。

MLflow提供了三个主要组件:

  • MLflow 跟踪模块 ,用于记录实验数据的API和UI,其中的数据包括参数、代码版本、评价指标和使用过的输出文件。

  • MLflow 项目模块 ,用于可重现性运行的一种代码封装格式,将代码封装在MLflow项目中,可以指定其中的依赖关系,并允许任何其他用户稍后再次运行它,并可靠地对结果进行重现。

  • MLflow 模型模块 ,一种简单的模型封装格式,允许将模型部署到许多工具。例如,如果将模型封装为一个Python函数,MLflow模型就可以将其部署到Docker或Azure ML进行线上服务,部署到Apache Spark进行批量打分。

2

数据集介绍

这里使用的是Kaggle竞赛题中预测信用卡风险客户的数据集,数据链接:

https://www.kaggle.com/c/home-credit-default-risk/data。

其中有一张表中是HomeCredit_columns.csv,记录了每个栏位的含义。数据集任务是需要判断每单申请信贷资金的风险等级,这是一个比较明确的二分类任务。这里我们主要使用:

  • application_train.csv

  • application_test.csv

3

特征工程

train文件相较于test文件多了一栏目标变量TARGET,Kaggle上有一句非常经典的话,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。通过总结和归纳,特征工程的步骤主要包括:

from sklearn.preprocessing import LabelEncoder
import pickle
import pandas as pdtrain_data = pd.read.csv("./application_train.csv")
print(application_train.select_dtypes(include=['object']).head())le = LabelEncoder() 
train_data['ORGANIZATION_TYPE'] = le.fit_transform(train_data['ORGANIZATION_TYPE'].values.tolist()+["UNKNOWN"])
output = open('ORGANIZATION_TYPE.pkl', 'wb')
pickle.dump(le, output)
output.close()# test文件转换
test_data = pd.read.csv("./application_test.csv")
pkl_file = open('ORGANIZATION_TYPE.pkl', 'rb')
le_origanization = pickle.load(pkl_file) 
pkl_file.close()
# 查看transformer中类别
print(le_origanization.classes_)
# 替换test中ORGANIZATION_TYPE未出现在train文件中为"UNKNOWN"
ORGANIZATION_TYPE_diff = set(test_data["ORGANIZATION_TYPE"])-set(train_data["ORGANIZATION_TYPE"])
if len(ORGANIZATION_TYPE_diff)>0:replace_dict = dict(zip(list(ORGANIZATION_TYPE_diff),len(list(ORGANIZATION_TYPE_diff))*["UNKNOWN"]))test_data["ORGANIZATION_TYPE"].replace(replace_dict,inplace=True)test_data['ORGANIZATION_TYPE'] = le_departure.transform(test_data['ORGANIZATION_TYPE'])

实际工程实施中,离线跑批模型是将特征工程加工过程提交到spark、Hadoop等大数据平台上进行的,产出变量宽表后再进行预测。上面的LabelEncoder与StandardScaler步骤是需要在sql文件中加工完成的。

4

模型训练

当特征工程完成后,可以使用MLflow Tracking API记录模型运行参数,

import argparse
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, log_loss, roc_auc_score
import xgboost as xgb
import mlflow
import mlflow.xgboostdef parse_args():parser = argparse.ArgumentParser(description='XGBoost example')parser.add_argument('--max-depth', type=int, default=3,help='Maximum depth of a tree. Increasing this value will make the model more complex and more likely to overfit (default: 3)')parser.add_argument('--colsample-bytree', type=float, default=1.0,help='subsample ratio of columns when constructing each tree (default: 1.0)')parser.add_argument('--subsample', type=float, default=1.0,help='subsample ratio of the training instances (default: 1.0)')return parser.parse_args()def main():# parse command-line argumentsargs = parse_args()app_train_domain = pd.read_pickle("./app_train_domain.pkl")features_ids = app_train_domain['SK_ID_CURR']labels = app_train_domain['TARGET']features = app_train_domain.drop(columns = ['SK_ID_CURR', 'TARGET'])train_x, test_x, train_y, test_y = train_test_split(features, labels, random_state=11)dtrain = xgb.DMatrix(train_x, label = train_y)dtest = xgb.DMatrix(test_x, label = test_y)# enable auto loggingmlflow.xgboost.autolog()with mlflow.start_run():params={'booster':'gbtree','objective': 'binary:logistic','eval_metric': 'auc','max_depth':args.max_depth,'lambda':10,'subsample':args.subsample,'colsample_bytree':args.colsample_bytree,'min_child_weight':2,'eta': 0.025,'seed':0,'nthread':8,'silent':1}model=xgb.train(params,dtrain,num_boost_round=100,evals=[(dtrain, 'train'),(dtest, 'test')])y_proba = model.predict(dtest)auc = roc_auc_score(test_y, y_proba)# log metricsmlflow.log_metrics({'auc': auc})if __name__ == '__main__':main()

保存后运行代码,

python train.py --colsample-bytree 0.8 --subsample 0.9

或者以工程的方式运行,

mlflow run . -P colsample-bytree=0.8 -P subsample=0.85

输入

mlflow ui

即可在 http://127.0.0.1:5000 中看到模型运行结果,并进行多次结果的对比。

mlflow与众多机器学习框架都有相应的接口,例如通过:

mlflow.xgboost.save_model(model, "my_model")

将刚刚运行得到的模型进行保存,保存后得到的目录中包含:

  • conda.yaml 

  • MLmodel

  • model.xgb

最后利用model register功能将模型保存后,可以管理上线模型的版本:

from pprint import pprintclient = MlflowClient()
for rm in client.list_registered_models():pprint(dict(rm), indent=4)

这样就可以查看到所有Registered模型。

各位小伙伴如有兴趣交流,欢迎关注公众号留言勾搭

代码猴

在看点这里

这篇关于机器学习笔记:如何用MLflow管理模型生命周期的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/431084

相关文章

HTML5中的Microdata与历史记录管理详解

《HTML5中的Microdata与历史记录管理详解》Microdata作为HTML5新增的一个特性,它允许开发者在HTML文档中添加更多的语义信息,以便于搜索引擎和浏览器更好地理解页面内容,本文将探... 目录html5中的Mijscrodata与历史记录管理背景简介html5中的Microdata使用M

Spring 基于XML配置 bean管理 Bean-IOC的方法

《Spring基于XML配置bean管理Bean-IOC的方法》:本文主要介绍Spring基于XML配置bean管理Bean-IOC的方法,本文给大家介绍的非常详细,对大家的学习或工作具有一... 目录一. spring学习的核心内容二. 基于 XML 配置 bean1. 通过类型来获取 bean2. 通过

python uv包管理小结

《pythonuv包管理小结》uv是一个高性能的Python包管理工具,它不仅能够高效地处理包管理和依赖解析,还提供了对Python版本管理的支持,本文主要介绍了pythonuv包管理小结,具有一... 目录安装 uv使用 uv 管理 python 版本安装指定版本的 Python查看已安装的 Python

利用Python快速搭建Markdown笔记发布系统

《利用Python快速搭建Markdown笔记发布系统》这篇文章主要为大家详细介绍了使用Python生态的成熟工具,在30分钟内搭建一个支持Markdown渲染、分类标签、全文搜索的私有化知识发布系统... 目录引言:为什么要自建知识博客一、技术选型:极简主义开发栈二、系统架构设计三、核心代码实现(分步解析

基于Python和MoviePy实现照片管理和视频合成工具

《基于Python和MoviePy实现照片管理和视频合成工具》在这篇博客中,我们将详细剖析一个基于Python的图形界面应用程序,该程序使用wxPython构建用户界面,并结合MoviePy、Pill... 目录引言项目概述代码结构分析1. 导入和依赖2. 主类:PhotoManager初始化方法:__in

Spring Security基于数据库的ABAC属性权限模型实战开发教程

《SpringSecurity基于数据库的ABAC属性权限模型实战开发教程》:本文主要介绍SpringSecurity基于数据库的ABAC属性权限模型实战开发教程,本文给大家介绍的非常详细,对大... 目录1. 前言2. 权限决策依据RBACABAC综合对比3. 数据库表结构说明4. 实战开始5. MyBA

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容:标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO(blocking I/O)NI

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

nvm如何切换与管理node版本

《nvm如何切换与管理node版本》:本文主要介绍nvm如何切换与管理node版本问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录nvm切换与管理node版本nvm安装nvm常用命令总结nvm切换与管理node版本nvm适用于多项目同时开发,然后项目适配no

Java进阶学习之如何开启远程调式

《Java进阶学习之如何开启远程调式》Java开发中的远程调试是一项至关重要的技能,特别是在处理生产环境的问题或者协作开发时,:本文主要介绍Java进阶学习之如何开启远程调式的相关资料,需要的朋友... 目录概述Java远程调试的开启与底层原理开启Java远程调试底层原理JVM参数总结&nbsMbKKXJx