CNCC day3 迈向新一代人工智能(AI2.0)的多媒体计算

2023-10-12 07:10

本文主要是介绍CNCC day3 迈向新一代人工智能(AI2.0)的多媒体计算,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

day3的论坛主要探讨的是多媒体计算的一些问题,各个研究机构的老师分别介绍了他们近年来的研究成果。

图像和视频生成的规则约束学习

这个报告主要介绍在图像和视频生成过程中引入规则进行学习的方法和实例。
这里写图片描述
生成对抗网络的基本思路。
这里写图片描述
这里写图片描述
图像与视频智能化生成主要面临以下挑战

这里写图片描述
于是乎,报告中引入了规则约束的GAN.

报告举了两个例子,第一个是风景图像的景深约束。
这里写图片描述
目前用GAN生成的图片面临景深效果不明确的问题,所以说我们要在GAN当中加入景深的约束。

这里写图片描述
从数据库中我们可以标注得到各构图元素的景深依赖关系,比如sky、sea和beach。

这里写图片描述
论文的逻辑是这样的,第一步利用数据库,建立景深关系的概率模型,对模型进行采样,生成图层序列,第二步按照图层序列,生成各层的表观,利用GAN生成整图。

这里写图片描述
用Hawkes过程模型对景深进行建模
用Hawkes过程模型对景深进行建模

这里写图片描述
先在层内用DCGAN生成单层图像,然后在层间用lstm使得图像的真实性更强。

这里写图片描述
实验结果

这里写图片描述
第二篇文章主要讲的是输入运动骨架序列+静态图像如何输入一端动态的任务运动(根据骨架运动)视频,在这个例子中骨架信息辅助,就相当于在运动空间上加上了约束条件。

这里写图片描述
使用的还是GAN生成器+判别器的方法。在生成网络的设计中,输入包括骨架信息和图片,采用孪生网络结构,利用CNN Encoder-Decoder结构进行特征学习。

这里写图片描述
生成网络的设计。

这里写图片描述
总结

基于锚图的视觉大数据分析

汪萌教授做的报告是关于锚图的视觉大数据分析。关于锚图概念的引入,首先,图的学习在视觉数据分类、聚类等应用中取得了良好的效果,但是在其构图与优化的过程中的巨大运算量使得其无法运用于大规模数据。而锚图的引入是在原来的图基础上选取一些代表性的锚点,这样使得传统图的方法可以应用于大规模视觉数据分析。
这里写图片描述

这里写图片描述

在构建锚图的基础上,运算量如果依然比较大的话,作者又提出可以通过构建层次话锚图的方法。
这里写图片描述

跨媒体分析、理解与应用

这份报告是北京大学的彭宇新教授做的。个人感觉这是这次论坛最后收获的一份报告,彭老师的报告干货满满,介绍了北大近年来在多媒体数据处理方向的研究进展。

这里写图片描述
首先需要介绍的是跨媒体分析的总体思路。对于多媒体数据,我们首先要做的还是要在单模态内容的分析与识别技术上去的突破,然后再来考虑多模态下的分析理解,比如多模态的话题检测与追踪,多模态综合分析与识别。

细粒度图像分类

这里写图片描述
这里写图片描述
在这里接触到了一些我比较陌生的名次动态扩容增量学习、增量深度学习。可能以后有机会可以阅读以一下paper.

这里写图片描述
同时,北大在针对细粒度特征学习上,还提出了物体——局部两级视觉注意的深度模型,利用不同的神经网络,分别关注对象级注意力和部件级注意力。比如对于一张鸟的图像,部件级注意力关注的可能是鸟嘴、鸟头之类的东西。

这里写图片描述
paper的名称

这里写图片描述
在部件选择的问题上,北大进一步提出了空间约束的显著性部件选择模型,可以进行有效的显著性部件的选择。

这里写图片描述
针对细粒度的选择问题,北大又提出了通过引入定位的手段(Faster R-CNN)来进一步提升分类的准确率。

这里写图片描述
建立了视觉-文本联合建模的图像细粒度表示方法,实现了多粒度、多角度、多层次的图像描述。

跨媒体关联与检索

这里写图片描述
针对跨媒体的问题,首先是需要将不同模态下的数据转化到同一个语义空间当中,并且建模关联关系和高层语义。北大采用的是基于稀疏和半监督规约的统一表征方法。
这里写图片描述

这里写图片描述
基于跨媒体语义单元的统一表征方法

这里写图片描述
这里写图片描述
基于跨媒体多深度网络结构的统一表征方法

这里写图片描述
基于多粒度层级网络的跨媒体关联学习方法

这里写图片描述
针对跨媒体训练样本不足的问题,提出了跨媒体混合迁移网络方法,混合了单媒体迁移和跨媒体迁移。

这里写图片描述
跨媒体关联传递算法

这里写图片描述
这里写图片描述
数据集和源码下载地址

这里写图片描述
综述论文

这里写图片描述
研究室网址

层次记忆网络:面向跨媒体推理的视频问答方法

这里写图片描述
韩亚洪教授分享的是针对视频问答的研究。视频数据由于增加了时间维度而更加复杂。本篇报告主要提出了新的层次记忆网络模型。

这里写图片描述
在处理视频的时候,一个方向是在video caption的时候找到时序兴趣区域,比如ppt上的图,我们可以检测出代表不同事物几个块,但在此时,我们最关心的是奔跑着的运动员。

这里写图片描述
文章的主要结构是这样的:首先用一个ROI选择器生成ROI,然后利用DMRM对ROI进行译码处理,然后用LSTM生成句子。
(值得一提的是,这篇论文是ACM MM2017的最佳论文候选之一,毕竟是浙大的老学长,牛逼)

这里写图片描述
https://ziweiyang.github.io/ 代码地址

这里写图片描述
visual QA的流程,将图像用CNN提取特征,问题用词向量+LSTM的方法处理,然后将两者merge,并且预测回答。

这里写图片描述
在处理视频的时候,同时处理视频和字幕,得到最终的结果。

这篇关于CNCC day3 迈向新一代人工智能(AI2.0)的多媒体计算的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/194185

相关文章

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

poj 1113 凸包+简单几何计算

题意: 给N个平面上的点,现在要在离点外L米处建城墙,使得城墙把所有点都包含进去且城墙的长度最短。 解析: 韬哥出的某次训练赛上A出的第一道计算几何,算是大水题吧。 用convexhull算法把凸包求出来,然后加加减减就A了。 计算见下图: 好久没玩画图了啊好开心。 代码: #include <iostream>#include <cstdio>#inclu

uva 1342 欧拉定理(计算几何模板)

题意: 给几个点,把这几个点用直线连起来,求这些直线把平面分成了几个。 解析: 欧拉定理: 顶点数 + 面数 - 边数= 2。 代码: #include <iostream>#include <cstdio>#include <cstdlib>#include <algorithm>#include <cstring>#include <cmath>#inc

uva 11178 计算集合模板题

题意: 求三角形行三个角三等分点射线交出的内三角形坐标。 代码: #include <iostream>#include <cstdio>#include <cstdlib>#include <algorithm>#include <cstring>#include <cmath>#include <stack>#include <vector>#include <

XTU 1237 计算几何

题面: Magic Triangle Problem Description: Huangriq is a respectful acmer in ACM team of XTU because he brought the best place in regional contest in history of XTU. Huangriq works in a big compa

音视频入门基础:WAV专题(10)——FFmpeg源码中计算WAV音频文件每个packet的pts、dts的实现

一、引言 从文章《音视频入门基础:WAV专题(6)——通过FFprobe显示WAV音频文件每个数据包的信息》中我们可以知道,通过FFprobe命令可以打印WAV音频文件每个packet(也称为数据包或多媒体包)的信息,这些信息包含该packet的pts、dts: 打印出来的“pts”实际是AVPacket结构体中的成员变量pts,是以AVStream->time_base为单位的显

基于人工智能的智能家居语音控制系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 随着物联网(IoT)和人工智能技术的发展,智能家居语音控制系统已经成为现代家庭的一部分。通过语音控制设备,用户可以轻松实现对灯光、空调、门锁等家电的控制,提升生活的便捷性和舒适性。本文将介绍如何构建一个基于人工智能的智能家居语音控制系统,包括环境准备

计算数组的斜率,偏移,R2

模拟Excel中的R2的计算。         public bool fnCheckRear_R2(List<double[]> lRear, int iMinRear, int iMaxRear, ref double dR2)         {             bool bResult = true;             int n = 0;             dou

从希腊神话到好莱坞大片,人工智能的七大历史时期值得铭记

本文选自historyextra,机器之心编译出品,参与成员:Angulia、小樱、柒柒、孟婷 你可能听过「技术奇点」,即本世纪某个阶段将出现超级智能,那时,技术将会以人类难以想象的速度飞速发展。同样,黑洞也是一个奇点,在其上任何物理定律都不适用;因此,技术奇点也是超越未来理解范围的一点。 然而,在我们到达那个奇点之前(假设我们能到达),还存在另一个极大的不连续问题,我将它称之

GPU 计算 CMPS224 2021 学习笔记 02

并行类型 (1)任务并行 (2)数据并行 CPU & GPU CPU和GPU拥有相互独立的内存空间,需要在两者之间相互传输数据。 (1)分配GPU内存 (2)将CPU上的数据复制到GPU上 (3)在GPU上对数据进行计算操作 (4)将计算结果从GPU复制到CPU上 (5)释放GPU内存 CUDA内存管理API (1)分配内存 cudaErro