triton inference server翻译之user guide

本文主要是介绍triton inference server翻译之user guide，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

link

NVIDIA Triton Inference Server提供了针对NVIDIA GPU优化的云推理解决方案。服务器通过HTTP或GRPC端点提供推理服务，从而允许远程客户端为服务器管理的任何模型请求推理。对于边缘部署，Triton Server也可以作为带有API的共享库使用，该API允许将服务器的全部功能直接包含在应用程序中。

最新版是1.13.0

更新KFserving HTTP/REST，GRPC协议和相应的python和c++的客户端库，参见Roadmap部分；
GRPC版本更新到1.24.0；
解决部分s3存储问题；
修复每个模型的last_inference_timestamp值；
后续会移除对Caffe2模型的支持，所以不推荐使用；

特征

多框架支持（Multiple framework support）
- 管理任意数量和混合方式的模型；（受系统磁盘和内存资源限制）
- 支持TensorRT, TensorFlow GraphDef, TensorFlow SavedModel, ONNX, PyTorch，Caffe2 NetDef模型；
- 支持TensorFlow-TensorRT 和 ONNX-TensorRT整合模型；
- 在框架和模型支持下，server同时支持可变大小的输入和输出；
- 参见Capabilities模块
模型并行支持（Concurrent model execution support）
- 多模型可同时在一块GPU运行；
- 单模型的多实例可在同一块GPU运行；
支持批处理（Batching support）
- 若模型支持批处理，server可接受批次请求并返回批次响应；
- Server还支持多种调度和批处理算法，这些算法将单个推理请求组合在一起以提高推理吞吐量，且调度和批处理对客户端是透明的；
一般后端支持（Custom backend support）
- 支持单个模型可以有除了dl框架之外的其他普通后端处理；
- 一般后端可以是任意逻辑，同时会受益于GPU的支持，并行，动态组批次和server所有的其他特性；
支持集成（Ensemble support）
- 一个管线（pipeline）可以是一个或多个模型的输入输出之间联结组合；
- 单个请求会触发整个管线的执行；
多GPU支持（Multi-GPU support）
- 可以部署在系统所有的GPU上；
多模型管理（multiple modes for model management）
- 允许隐式和显式地加载和卸载模型，而无需重新启动服务器；
模型仓库
- 可以驻留在本地可访问文件系统（例如NFS），Google Cloud Storage或Amazon S3中；
部署
- 可用于任何编排或部署框架（例如Kubernetes）的就绪和活跃性健康端点；
指标计算
- GPU利用率，服务的吞吐和延迟；
c/c++部署
- Triton Server的所有功能可包含在某个应用中；