本文主要是介绍使用 optimum 使得 embedding 生成速度提高 5 倍(和原生 sentence transformer 模型对比),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
今天偶然刷到了
Accelerate Sentence Transformers with Hugging Face Optimum (philschmid.de)
看到可以是用 optimum 调用 onnx API 加速 embedding 模型在 CPU 上的推理速度,而且相比之前:
使用 onnx 使得 embedding 生成速度提高 4 倍(和原生 sentence transformer 模型对比)-CSDN博客
调用方式更为简单,就研究了下如何在 GPU 上加速。
结果
[Optimum] OnnxModel Runtime gpu Inference time = 3.22 ms
Sentence Transformer gpu Inference time = 17.63 ms
可以看到使用 optimum 推理速度,还会更快些。
完整的代码可以查看:
github.com/amulil/vector_by_onnxmodel
这篇关于使用 optimum 使得 embedding 生成速度提高 5 倍(和原生 sentence transformer 模型对比)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!