本文主要是介绍triton inference server翻译之model managment,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
link
Model Management
推理服务器以以下三种模型控制模式之一进行操作:NONE,POLL或EXPLICIT。
Model Control Mode NONE
服务器尝试在启动时加载模型存储库中的所有模型。 服务器无法加载的模型在服务器状态中将标记为UNAVAILABLE
,并且不可用于推理。
服务器运行时对模型存储库的更改将被忽略。 使用模型控制API的模型控制请求将不起作用,并且将收到错误响应。
启动推理服务器时,通过指定--model-control-mode = none
来选择此模型控制模式。
Model Control Mode POLL
服务器尝试在启动时加载模型存储库中的所有模型。服务器无法加载的模型在服务器状态中将标记为UNAVAILABLE
,并且不可用于推理。
将检测到对模型存储库的更改,并且服务器将根据这些更改尝试根据需要加载和卸载模型。可能无法立即检测到对模型存储库的更改,因为服务器会定期轮询存储库。您可以使用--repository-poll-secs
选项控制轮询间隔。控制台日志或Status API可用于确定模型存储库更改何时生效。
使用模型控制API的模型控制请求将不起作用,并且将收到错误响应。
该模型控制模式是默认模式,但可以通过指定--model-control-mode = poll
并将启动推理服务器时将--repository-poll-secs
设置为非零值来显式启用。
在POLL模式下,推理服务器将响应以下模型存储库更改:
-
通过添加和删除相应的版本子目录,可以从模型中添加和删除版本。推理服务器将允许正在进行的请求完成,即使它们正在使用模型的已删除版本也是如此。对删除模型版本的新请求将失败。根据型号的版本政策,对可用版本的更改可能会更改默认提供的型号版本。
-
可以通过删除相应的模型目录从存储库中删除现有模型。推理服务器将允许对已删除模型的任何版本进行实时请求。对删除模型的新请求将失败。
-
可以通过添加新模型目录将新模型添加到资源库中。
-
可以更改模型配置(config.pbtxt),服务器将卸载并重新加载模型以获取新的模型配置。
-
可以添加,删除或修改为表示分类的输出提供标签的标签文件,推理服务器将卸载并重新加载模型以拾取新标签。如果添加或删除了标签文件,则必须同时执行其在模型配置中对应的输出的label_filename属性的相应编辑。
Model Control Mode EXPLICIT
在启动时,服务器仅加载使用--load-model
命令行选项明确指定的那些模型。 如果未指定--load-model
,则启动时不会加载任何模型。 启动后,必须使用Model Control API显式启动所有模型加载和卸载操作。 模型控制请求的响应状态指示加载或卸载操作的成功或失败。
通过指定--model-control-mode = explicit
启用此模型控制模式。
EXPLICIT模型控制模式是实验性的。 推理服务器将尝试使用框架后端提供的API来加载和卸载模型,但是至少某些后端可能难以管理重复的加载/卸载周期。
这篇关于triton inference server翻译之model managment的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!