本文主要是介绍使用 onnx 使得 embedding 生成速度提高 4 倍(和原生 sentence transformer 模型对比),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
记录下使用 onnx 提高向量生成速度的过程。复现放在:amulil/vector_by_onnxmodel: accelerate generating vector by using onnx model (github.com)。
结果
OnnxModel Runtime gpu Inference time = 4.52 ms
Sentence Transformer gpu Inference time = 22.19 ms
参考
GitHub - yuanzhoulvpi2017/quick_sentence_transformers: sentence-transformers to onnx 让sbert模型推理效率更快
这篇关于使用 onnx 使得 embedding 生成速度提高 4 倍(和原生 sentence transformer 模型对比)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!