本文主要是介绍机器学习笔记:如何用MLflow管理模型生命周期,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
1
MLflow介绍
MLflow是一个解决机器学习生命周期管理的平台,在上面对模型进行跟踪、重现、管理和部署。
MLFlow解决了如下几个问题:
1、算法训练实验难于追踪,所以我们需要有一个实验管理工具Tracking。这个工具能够记录算法,算法参数,模型结果,效果等数据。
2、算法脚本难于重复运行,原因很多,比如代码版本,模型参数,还有运行环境。解决办法就是所有的算法项目应该都有一套标准的Projects概念,记录下来这些东西,并且这个Projects是可以拟合所有算法框架的。
3、部署模型是一个艰难的过程,ML界目前还没有一个标准的打包和部署模型的机制。解决的办法是Models概念,Models提供了工具和标准帮助你部署各种算法框架的模型。
MLflow提供了三个主要组件:
MLflow 跟踪模块 ,用于记录实验数据的API和UI,其中的数据包括参数、代码版本、评价指标和使用过的输出文件。
MLflow 项目模块 ,用于可重现性运行的一种代码封装格式,将代码封装在MLflow项目中,可以指定其中的依赖关系,并允许任何其他用户稍后再次运行它,并可靠地对结果进行重现。
MLflow 模型模块 ,一种简单的模型封装格式,允许将模型部署到许多工具。例如,如果将模型封装为一个Python函数,MLflow模型就可以将其部署到Docker或Azure ML进行线上服务,部署到Apache Spark进行批量打分。
2
数据集介绍
这里使用的是Kaggle竞赛题中预测信用卡风险客户的数据集,数据链接:
https://www.kaggle.com/c/home-credit-default-risk/data。
其中有一张表中是HomeCredit_columns.csv,记录了每个栏位的含义。数据集任务是需要判断每单申请信贷资金的风险等级,这是一个比较明确的二分类任务。这里我们主要使用:
application_train.csv
application_test.csv
3
特征工程
train文件相较于test文件多了一栏目标变量TARGET,Kaggle上有一句非常经典的话,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。通过总结和归纳,特征工程的步骤主要包括:
from sklearn.preprocessing import LabelEncoder
import pickle
import pandas as pdtrain_data = pd.read.csv("./application_train.csv")
print(application_train.select_dtypes(include=['object']).head())le = LabelEncoder()
train_data['ORGANIZATION_TYPE'] = le.fit_transform(train_data['ORGANIZATION_TYPE'].values.tolist()+["UNKNOWN"])
output = open('ORGANIZATION_TYPE.pkl', 'wb')
pickle.dump(le, output)
output.close()# test文件转换
test_data = pd.read.csv("./application_test.csv")
pkl_file = open('ORGANIZATION_TYPE.pkl', 'rb')
le_origanization = pickle.load(pkl_file)
pkl_file.close()
# 查看transformer中类别
print(le_origanization.classes_)
# 替换test中ORGANIZATION_TYPE未出现在train文件中为"UNKNOWN"
ORGANIZATION_TYPE_diff = set(test_data["ORGANIZATION_TYPE"])-set(train_data["ORGANIZATION_TYPE"])
if len(ORGANIZATION_TYPE_diff)>0:replace_dict = dict(zip(list(ORGANIZATION_TYPE_diff),len(list(ORGANIZATION_TYPE_diff))*["UNKNOWN"]))test_data["ORGANIZATION_TYPE"].replace(replace_dict,inplace=True)test_data['ORGANIZATION_TYPE'] = le_departure.transform(test_data['ORGANIZATION_TYPE'])
实际工程实施中,离线跑批模型是将特征工程加工过程提交到spark、Hadoop等大数据平台上进行的,产出变量宽表后再进行预测。上面的LabelEncoder与StandardScaler步骤是需要在sql文件中加工完成的。
4
模型训练
当特征工程完成后,可以使用MLflow Tracking API记录模型运行参数,
import argparse
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, log_loss, roc_auc_score
import xgboost as xgb
import mlflow
import mlflow.xgboostdef parse_args():parser = argparse.ArgumentParser(description='XGBoost example')parser.add_argument('--max-depth', type=int, default=3,help='Maximum depth of a tree. Increasing this value will make the model more complex and more likely to overfit (default: 3)')parser.add_argument('--colsample-bytree', type=float, default=1.0,help='subsample ratio of columns when constructing each tree (default: 1.0)')parser.add_argument('--subsample', type=float, default=1.0,help='subsample ratio of the training instances (default: 1.0)')return parser.parse_args()def main():# parse command-line argumentsargs = parse_args()app_train_domain = pd.read_pickle("./app_train_domain.pkl")features_ids = app_train_domain['SK_ID_CURR']labels = app_train_domain['TARGET']features = app_train_domain.drop(columns = ['SK_ID_CURR', 'TARGET'])train_x, test_x, train_y, test_y = train_test_split(features, labels, random_state=11)dtrain = xgb.DMatrix(train_x, label = train_y)dtest = xgb.DMatrix(test_x, label = test_y)# enable auto loggingmlflow.xgboost.autolog()with mlflow.start_run():params={'booster':'gbtree','objective': 'binary:logistic','eval_metric': 'auc','max_depth':args.max_depth,'lambda':10,'subsample':args.subsample,'colsample_bytree':args.colsample_bytree,'min_child_weight':2,'eta': 0.025,'seed':0,'nthread':8,'silent':1}model=xgb.train(params,dtrain,num_boost_round=100,evals=[(dtrain, 'train'),(dtest, 'test')])y_proba = model.predict(dtest)auc = roc_auc_score(test_y, y_proba)# log metricsmlflow.log_metrics({'auc': auc})if __name__ == '__main__':main()
保存后运行代码,
python train.py --colsample-bytree 0.8 --subsample 0.9
或者以工程的方式运行,
mlflow run . -P colsample-bytree=0.8 -P subsample=0.85
输入
mlflow ui
即可在 http://127.0.0.1:5000 中看到模型运行结果,并进行多次结果的对比。
mlflow与众多机器学习框架都有相应的接口,例如通过:
mlflow.xgboost.save_model(model, "my_model")
将刚刚运行得到的模型进行保存,保存后得到的目录中包含:
conda.yaml
MLmodel
model.xgb
最后利用model register功能将模型保存后,可以管理上线模型的版本:
from pprint import pprintclient = MlflowClient()
for rm in client.list_registered_models():pprint(dict(rm), indent=4)
这样就可以查看到所有Registered模型。
各位小伙伴如有兴趣交流,欢迎关注公众号留言勾搭
代码猴
在看点这里
这篇关于机器学习笔记:如何用MLflow管理模型生命周期的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!