本文主要是介绍triton inference server翻译之user guide,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
link
NVIDIA Triton Inference Server提供了针对NVIDIA GPU优化的云推理解决方案。 服务器通过HTTP或GRPC端点提供推理服务,从而允许远程客户端为服务器管理的任何模型请求推理。 对于边缘部署,Triton Server也可以作为带有API的共享库使用,该API允许将服务器的全部功能直接包含在应用程序中。
最新版是1.13.0
- 更新KFserving HTTP/REST,GRPC协议和相应的python和c++的客户端库,参见Roadmap部分;
- GRPC版本更新到1.24.0;
- 解决部分s3存储问题;
- 修复每个模型的last_inference_timestamp值;
- 后续会移除对Caffe2模型的支持,所以不推荐使用;
特征
- 多框架支持(Multiple framework support)
- 管理任意数量和混合方式的模型;(受系统磁盘和内存资源限制)
- 支持TensorRT, TensorFlow GraphDef, TensorFlow SavedModel, ONNX, PyTorch,Caffe2 NetDef模型;
- 支持TensorFlow-TensorRT 和 ONNX-TensorRT整合模型;
- 在框架和模型支持下,server同时支持可变大小的输入和输出;
- 参见Capabilities模块
- 模型并行支持(Concurrent model execution support)
- 多模型可同时在一块GPU运行;
- 单模型的多实例可在同一块GPU运行;
- 支持批处理(Batching support)
- 若模型支持批处理,server可接受批次请求并返回批次响应;
- Server还支持多种调度和批处理算法,这些算法将单个推理请求组合在一起以提高推理吞吐量,且调度和批处理对客户端是透明的;
- 一般后端支持(Custom backend support)
- 支持单个模型可以有除了dl框架之外的其他普通后端处理;
- 一般后端可以是任意逻辑,同时会受益于GPU的支持,并行,动态组批次和server所有的其他特性;
- 支持集成(Ensemble support)
- 一个管线(pipeline)可以是一个或多个模型的输入输出之间联结组合;
- 单个请求会触发整个管线的执行;
- 多GPU支持(Multi-GPU support)
- 可以部署在系统所有的GPU上;
- 多模型管理(multiple modes for model management)
- 允许隐式和显式地加载和卸载模型,而无需重新启动服务器;
- 模型仓库
- 可以驻留在本地可访问文件系统(例如NFS),Google Cloud Storage或Amazon S3中;
- 部署
- 可用于任何编排或部署框架(例如Kubernetes)的就绪和活跃性健康端点;
- 指标计算
- GPU利用率,服务的吞吐和延迟;
- c/c++部署
- Triton Server的所有功能可包含在某个应用中;
这篇关于triton inference server翻译之user guide的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!