【推文阅读】4.20-21

2023-11-06 12:40
文章标签 21 阅读 推文 4.20

本文主要是介绍【推文阅读】4.20-21,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

20210420

【轻量化人工智能】

原文链接
人工智能使能框架是由芯片(硬件)、AI操作系统(深度学习框架平台)和算法三个部分组成的。而Tiny AI是以一系列轻量化技术为驱动芯片、平台和算法的效率。对外看来,Tiny AI的表现是在做减法,降低能耗、对平台指标的要求等,但其内核是在做加法,通过加速运算效率、提高计算密度来实现极致的效率。
要想实现Tiny AI就需要从软件和硬件两方面来着手,也就是说极致的轻量化必须是软件和硬件的协同轻量化:基于复杂的AI应用场景,将芯片、平台和算法充分结合以联合加速。

【第三代人工智能】

原文链接
在这里插入图片描述

第三代人工智能的发展路径是融合第一代知识驱动和第二代数据驱动的人工智能,综合知识、数据、算法与算力四个要素,来构建比前代更强大的人工智能。
珠算平台是基于贝叶斯推断并支持多种生成模型的软件库,既可以训练神经网络,也可以做概率建模和概率推断,能够用于无监督学习、小样本学习等。
第三代人工智能的一个重要发展方向是研制第三代人工智能编程框架及基础算法库。
提升人工智能的安全性也是第三代人工智能的重点研究方向。

【变换器跟踪】CVPR2021 TransT:

推文链接

相关概念

相关运算在于反应已有事物的内在关联,并不是事物之间的相互影响。通过简单的相似性比较,来完成模板特征和搜索区域特征的交互,输出相似度图。

相关运算的缺陷:相关运算本身是一个局部的线性匹配,导致了语义信息的丢失和全局信息的缺乏。

论文链接 论文中提出的了基于Transformer的特征融合模型,通过建立非线性语义融合和挖掘远距离特征关联有效聚合目标和搜索区域的全局信息,显著提升了算法的精准度。
TransT框架
上图为Transformer Tracking框架图,这个框架图包括三个基本组成:特征提取骨干、特征融合网络、预测头。提出的基于注意力的特征融合网络自然地应用于基于Siamese的特征提取主干。
代码链接
TransT由三个组件组成,骨干网络分别提取模板和搜索区域的特征,然后利用该特征融合网络对特征进行增强和融合。最后预测头对增强特征进行二值分类和包围盒回归,生成跟踪结果1。
在这里插入图片描述
总结:在论文中,提出了一种新颖、简单、高性能的基于Transformer类特征融合网络的跟踪框架。该网络仅利用注意机制进行特征融合,包括基于自我注意的自我情境增强模块和基于交叉注意的交叉特征增强模块。注意机制建立了长距离特征关联,使跟踪器自适应关注有用信息,提取丰富的语义信息。该融合网络可以替代相关性,合成模板和搜索区域特征,从而促进目标定位和边界盒回归。在许多基准上的大量实验结果表明,所提出的跟踪器在以实时速度运行时,性能明显优于目前最先进的算法。

【机器学习导论-234页pdf】

电子链接

【使用transformer进行物体检测】实操

推文链接
该文介绍了Facebook研究团队利用Transformer架构开发的DEtection TRansformer(DETR),这是一个目标检测模型。

DETR模型由一个预训练的CNN骨干(如ResNet)组成,它产生一组低维特征集。这些特征被格式化为一个特征集合并添加位置编码,输入一个由Transformer组成的编码器和解码器中,和原始的Transformer论文中描述的Encoder-Decoder的使用方式非常的类似。解码器的输出然后被送入固定数量的预测头,这些预测头由预定义数量的前馈网络组成。每个预测头的输出都包含一个类预测和一个预测框。损失是通过计算二分匹配损失来计算的。该模型做出了预定义数量的预测,并且每个预测都是并行计算的
在这里插入图片描述
CNN主干:假设我们的输入图像,有三个输入通道。CNN backbone由一个(预训练过的)CNN(通常是ResNet)组成,我们用它来生成_C_个具有宽度W和高度H的低维特征(在实践中,我们设置_C_=2048, W=W₀/32和H=H₀/32)。这留给我们的是C个二维特征,由于我们将把这些特征传递给一个transformer,每个特征必须允许编码器将每个特征处理为一个序列的方式重新格式化。这是通过将特征矩阵扁平化为H⋅W向量,然后将每个向量连接起来来实现的。扁平化的卷积特征再加上空间位置编码,位置编码既可以学习,也可以预定义。

在这里插入图片描述

Transformer几乎与原始的编码器-解码器架构完全相同。不同之处在于,每个解码器层并行解码N个(预定义的数目)目标。 该模型还学习了一组N个目标的查询,这些查询是(类似于编码器)学习出来的位置编码。
在这里插入图片描述
具体实现不再赘述。

【端到端Transformer视频实例分割】

视频实例分割(VIS)是一项需要同时对视频中感兴趣的对象实例进行分类、分割和跟踪的任务。

文章中提出了一个新的基于Transformers的视频实例分割框架VisTR,它将VIS任务看作一个直接的端到端并行序列解码/预测问题。
给定一个由多个图像帧组成的视频片段 作为输入,VisTR直接输出视频中每个实例的掩码序列。 其核心是一种新的、有效的实例序列匹配与分割策略,它在序列级对实例进行整体监控和分割。 VisTR从相似性学习的角度对实例进行分割和跟踪,大大简化了整个流程,与现有方法有很大的不同。
Code
在这里插入图片描述
上图为VisTR 整体框架.该模型以一系列图像作为输入,输出一系列实例预测。在这里,相同的形状表示一个图像中的预测,相同的颜色表示同一对象实例的预测。 请注意,总体预测遵循输入帧顺序,不同图像的对象预测顺序保持相同

VisTR从相似性学习的新角度解决了VIS问题。实例分割就是学习像素级的相似度,实例跟踪就是学习实例之间的相似度。 因此,在相同的实例分割框架下,可以无缝、自然地实现实例跟踪

算法流程这里不再赘述

【2021综述论文《小样本/GNN/深度学习/机器学习/知识图谱/NLP/CV》大集合】

链接

这篇关于【推文阅读】4.20-21的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/356678

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

【LabVIEW学习篇 - 21】:DLL与API的调用

文章目录 DLL与API调用DLLAPIDLL的调用 DLL与API调用 LabVIEW虽然已经足够强大,但不同的语言在不同领域都有着自己的优势,为了强强联合,LabVIEW提供了强大的外部程序接口能力,包括DLL、CIN(C语言接口)、ActiveX、.NET、MATLAB等等。通过DLL可以使用户很方便地调用C、C++、C#、VB等编程语言写的程序以及windows自带的大

软件架构模式:5 分钟阅读

原文: https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式:5 分钟阅读 当有人潜入软件工程世界时,有一天他需要学习软件架构模式的基础知识。当我刚接触编码时,我不知道从哪里获得简要介绍现有架构模式的资源,这样它就不会太详细和混乱,而是非常抽象和易

【JavaScript】LeetCode:21-25

文章目录 21 最大子数组和22 合并区间23 轮转数组24 除自身以外数组的乘积25 缺失的第一个正数 21 最大子数组和 贪心 / 动态规划贪心:连续和(count)< 0时,放弃当前起点的连续和,将下一个数作为新起点,这里提供使用贪心算法解决本题的代码。动态规划:dp[i]:以nums[i]为结尾的最长连续子序列(子数组)和。 dp[i] = max(dp[i - 1]

react笔记 8-21 约束性 表单

1、约束性组件和非约束性组件 非约束性组件<input type="text" name="" defaultValue={this.state.msg}></input>这里他的value是用户输入的值 并没有执行操作 只是获取到了msg的值 用户输入不会改变数据非约束性组件需要使用defaultValue获取数据 否则会报错约束性组件<input type="text

【阅读文献】一个使用大语言模型的端到端语音概要

摘要 ssum框架(Speech Summarization)为了 从说话人的语音提出对应的文本二题出。 ssum面临的挑战: 控制长语音的输入捕捉 the intricate cross-mdoel mapping 在长语音输入和短文本之间。 ssum端到端模型框架 使用 Q-Former 作为 语音和文本的中介连接 ,并且使用LLMs去从语音特征正确地产生文本。 采取 multi-st

你读文献的方式可能错了!掌握这些技巧,让阅读事半功倍!

我是娜姐 @迪娜学姐 ,一个SCI医学期刊编辑,探索用AI工具提效论文写作和发表。 科研新手如何精读一篇论文? 很多科研新手,一上来就疯狂下载几十上百篇文献。囫囵吞枣看完了,还是什么都不知道,大脑一片空白。究竟该如何读文献收获最大? 大佬说,要积极阅读、频繁阅读。 什么是积极阅读? 相比被动阅读,积极阅读是指在阅读之前准备好问题、设置阅读目标、保持批判性,收获更多、进步更大的一种阅读

一键部署Phi 3.5 mini+vision!多模态阅读基准数据集MRR-Benchmark上线,含550个问答对

小模型又又又卷起来了!微软开源三连发!一口气发布了 Phi 3.5 针对不同任务的 3 个模型,并在多个基准上超越了其他同类模型。 其中 Phi-3.5-mini-instruct 专为内存或算力受限的设备推出,小参数也能展现出强大的推理能力,代码生成、多语言理解等任务信手拈来。而 Phi-3.5-vision-instruct 则是多模态领域的翘楚,能同时处理文本和视觉信息,图像理解、视频摘要

深入理解计算机系统阅读笔记-第四章

第四章 处理器体系结构 一个处理器支持的指令和指令的字节级编码称为它的ISA(instruction-set architecture,指令集体系结构)。不同家族处理器有不同的ISA。ISA在编译器编写者和处理器设计人员之间提供了一个概念抽象层,编译器编写者只需要知道允许哪些指令,以及他们是如何编码的;而处理器设计者,必须建造出执行这些指令的处理器。 ISA模型看上去是顺序执行的,实际上同时处