inference专题

ML17_变分推断Variational Inference

1. KL散度 KL散度（Kullback-Leibler divergence），也称为相对熵（relative entropy），是由Solomon Kullback和Richard Leibler在1951年引入的一种衡量两个概率分布之间差异的方法。KL散度不是一种距离度量，因为它不满足距离度量的对称性和三角不等式的要求。但是，它仍然被广泛用于量化两个概率分布之间的“接近程度”。在

NLP-文本匹配-2016：ESIM【Enhanced LSTM for Natural Language Inference】

MixtralForCausalLM DeepSpeed Inference节约HOST内存【最新的方案】

MixtralForCausalLM DeepSpeed Inference节约HOST内存【最新的方案】一.效果二.特别说明三.测试步骤1.创建Mixtral-8x7B配置文件(简化了)2.生成随机模型,运行cpu float32推理,输出结果3.加载模型,cuda 单卡推理4.DS 4 TP cuda 推理5.分别保存DS 4TP每个rank上engine.module的权值6.DS

【ai】triton-inference-server本地运行

官方地址下载源码 triton-inference-server/server zhangbin@LAPTOP-Y9KP MINGW64 /x/02_triton_inf_server$ git clone -b r24.05 https://github.com/triton-inference-server/server.gitCloning into 'server'...r

yolo-inference多后端+多任务+多算法+多精度模型框架开发记录(python版)

先贴出github地址，欢迎大家批评指正：https://github.com/taifyang/yolo-inference 不知不觉LZ已经快工作两年了，由于之前的工作内容主要和模型部署相关，想着利用闲暇时间写一些推理方面的经验总结，于是有了这个工程。其实本来也是自己写了玩的，不过已经陆续迭代半年多了，期间也通过借签优秀代码吸收了经验，索性总结一下心得~ 1.0 初始版本 1.1 支持多精度

yolo-inference多后端+多任务+多算法+多精度模型框架开发记录(cpp版)

先贴出github地址，欢迎大家批评指正：https://github.com/taifyang/yolo-inference 不知不觉LZ已经快工作两年了，由于之前的工作内容主要和模型部署相关，想着利用闲暇时间写一些推理方面的经验总结，于是有了这个工程。其实本来也是自己写了玩的，不过已经陆续迭代半年多了，期间也通过借签优秀代码吸收了经验，索性总结一下心得~ 1.0 初始版本 1.1 支持多精度

图模型的统计推断 inference in graphical models（马尔科夫链的推断）

有关因子图(factor graphs)以及其在sum product 算法，max-algorithm中的应用，将在一下篇博客中分享。谢谢您的关注，欢迎提出意见问题。

Linux 36.3 + JetPack v6.0@jetson-inference之视频操作

Linux 36.3 + JetPack v6.0@jetson-inference之视频操作 1. 源由2. 输入输出源2.1 输入2.2 输出 3. 示例3.1 MIPI CSI 摄像头3.2 V4L2 摄像头3.3 WebRTC3.4 RTP3.5 RTSP3.6 Video 文件3.7 Image 文件 4. 代码分析4.1 Python4.2 C++ 5. 参考资料 1.

成功解决No module named ‘huggingface_hub.inference._text_generation‘

成功解决No module named 'huggingface_hub.inference._text_generation' 目录解决问题解决思路解决方法解决问题 No module named 'huggingface_hub.inferen

Secure Transformer Inference Made Non-interactive

目录 1.概述2.Attention2.1 Matrix multiplication (ciphertext-plaintext).2.2 Matrix multiplication (ciphertext-ciphertext)2.3 Placement of bootstrapping3.SIMD密文压缩和解压缩4.SIMD槽折叠5.实验结果 1.概述我们提出了NEXUS

centernet笔记 - inference阶段后处理

预备知识，mxnet.ndarray的一些操作 shape_array shape_array([[1,2,3,4], [5,6,7,8]]) = [2,4] # 获取ndarry的shape# Returns a 1D int64 array containing the shape of data. split Splits an array along a particular

quantizing deep convolutional networks for efficient inference

标题: 量化深层卷积网络用于有效推理摘要本文综述了一种量化卷积神经网络的方法，用于整数权重和激活的推理。采用每个通道权重量化和每层激活量化到8位精度方法, 会对网络模型测试精度下降2%左右. 优点是适用于各种CNN架构。通过将权重量化为8位，模型大小可以减少4倍. 即使不支持8位算法，也可以通过简单的训练后权重量化来实现。我们对CPU和DSP上网络量化产生的延迟进行基准测试，并观察到量

Elasticsearch 开放 inference API 增加了对 Cohere Embeddings 的支持

作者：来自 Elastic Serena Chou, Jonathan Buttner, Dave Kyle 我们很高兴地宣布 Elasticsearch 现在支持 Cohere 嵌入！发布此功能是与 Cohere 团队合作的一次伟大旅程，未来还会有更多合作。 Cohere 是生成式 AI 领域令人兴奋的创新者，我们很自豪能够让开发人员使用 Cohere 令人难以置信。 Elastic

(Inference:13588): Gtk-ERROR **: 08:58:18.722: GTK+ 2.x symbols detected. Using GTK+ 2.x and GTK+ 3

(Inference:7714): Gtk-ERROR **: 19:29:39.303: GTK+ 2.x symbols detected. Using GTK+ 2.x and GTK+ 3 i

未解决： (Inference:7714): Gtk-ERROR **: 19:29:39.303: GTK+ 2.x symbols detected. Using GTK+ 2.x and GTK+ 3 in the same process is not supported Trace/breakpoint trap (core dumped)

Towards Accurate Latency Prediction of Deep-Learning Model Inference on Diverse Edge Devices

nn-Meter: Towards Accurate Latency Prediction of Deep-Learning Model Inference on Diverse Edge Devices nn-Meter：精准预测深度学习模型在边缘设备上的推理延迟 nn-Meter：面向多样化边缘设备的深度学习模型精准延迟预测深度模型端侧推理时间预测系统 nn-Meter Li Lyn

guidance快速配置流程-for LLM inference

conda create conda create -n guidance python=3.10 pytorch conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia pip install guidance guidance copy code pip transfor

《LLM in a Flash: Efficient Large Language Model Inference with Limited Memory》论文解读

作者：Gary Li 时间：2024-1-9 （由于我不是研究大模型的，对AI也知之甚少，我主要关注存储相关的内容。并且本文并未正式发表有许多不规范和写作表达不清的地方，因此有许多我不理解的地方，也有许多我按照自己的理解记下的内容，如有错误请见谅。）背景：大模型难以运行在内存受限的边端设备上（使用半浮点精度加载有7B参数的模型时需要约14GB内存）。当可用内存小于模型参数规模，会导致大量的

阅读文献：LeViT: a Vision Transformer in ConvNet’s Clothing for Faster Inference

LeViT: a Vision Transformer in ConvNet’s Clothing for Faster Inference 1.四个问题要解决什么问题在高速状态下，平衡图像分类方法的精度和效率用什么方法解决提出一种网络模型LeViT方法，在ViT模型基础上，引入卷积模块而不是学习类卷积特征的转换器组件，用特征金字塔替换Transformer中用以的结构（类似LeNet架

Delphi 论文阅读 Delphi: A Cryptographic Inference Service for Neural Networks

摘要许多公司为用户提供神经网络预测服务，应用范围广泛。然而，目前的预测系统会损害一方的隐私:要么用户必须将敏感输入发送给服务提供商进行分类，要么服务提供商必须将其专有的神经网络存储在用户的设备上。前者损害了用户的个人隐私，而后者暴露了服务提供商的专有模式。我们设计、实现并评估了DELPHI，这是一个安全的预测系统，允许双方在不泄露任何一方数据的情况下执行神经网络推理。DELPHI通过同时联

Object_Detection_API之Inference

导入包 import numpy as npimport osimport six.moves.urllib as urllibimport sysimport tarfileimport tensorflow as tfimport zipfilefrom distutils.version import StrictVersionfrom collections import

TensorFlow on Android（4）: 输入数据预处理和Inference

Graph，Op， Tensor 在开始输入数据之前，我们先简单讲一下TensorFlow中的一些概念一个 TensorFlow 的计算任务，叫做Graph，一个Graph由很多节点（Op）组成， Op通过Tensor获取输入，Op完成计算以后再通过Tensor把输出传递到下一个节点。 Tensor一般来说是一个数组（1维或多维），我们用Feed操作将一个Tensor的数据输入到一个O

Elasticsearch：使用 Inference API 进行语义搜索

在我之前的文章 “Elastic Search 8.12：让 Lucene 更快，让开发人员更快”，我有提到 Inference API。这些功能的核心部分始终是灵活的第三方模型管理，使客户能够利用当今市场上下载最多的向量数据库及其选择的转换器模型。在今天的文章中，我们将使用一个例子来展示如何使用 Inference API 来进行语义搜索。前提条件你需要安装 Elastic

神经网络水印（文章解读Dataset Inference: Ownership Resolution in Machine Learning）

这篇发在ICPR上。介绍了一种数据集推理的方法（dataset inference）。实际上也是模型水印方法，但是却属于完全不同的大类。之前介绍的模型水印的方法，其实大概就两种，一种是白盒，包括在训练的时候直接加入惩罚项使得最终模型参数变成一个特定的“形状”，或者是在顶会上发了很多次的passport layers。在验证阶段需要打开模型，计算参数向量与特定的向量之间的距离。这样的验证是比较难实现

【论文阅读】Membership Inference Attacks Against Machine Learning Models

基于confidence vector的MIA Machine Learning as a Service简单介绍什么是Membership Inference Attacks（MIA）攻击实现过程DatasetShadow trainingTrain attack model Machine Learning as a Service简单介绍机器学习即服务（Machine

【论文阅读】Automated Runtime-Aware Scheduling for Multi-Tenant DNN Inference on GPU

该论文发布在 ICCAD’21 会议。该会议是EDA领域的顶级会议。基本信息 AuthorHardwareProblemPerspectiveAlgorithm/StrategyImprovment/AchievementFuxun YuGPUResource under-utilization ContentionSW SchedulingOperator-level scheduling