本文主要是介绍CNCC day3 迈向新一代人工智能(AI2.0)的多媒体计算,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
day3的论坛主要探讨的是多媒体计算的一些问题,各个研究机构的老师分别介绍了他们近年来的研究成果。
图像和视频生成的规则约束学习
这个报告主要介绍在图像和视频生成过程中引入规则进行学习的方法和实例。
生成对抗网络的基本思路。
图像与视频智能化生成主要面临以下挑战
于是乎,报告中引入了规则约束的GAN.
报告举了两个例子,第一个是风景图像的景深约束。
目前用GAN生成的图片面临景深效果不明确的问题,所以说我们要在GAN当中加入景深的约束。
从数据库中我们可以标注得到各构图元素的景深依赖关系,比如sky、sea和beach。
论文的逻辑是这样的,第一步利用数据库,建立景深关系的概率模型,对模型进行采样,生成图层序列,第二步按照图层序列,生成各层的表观,利用GAN生成整图。
用Hawkes过程模型对景深进行建模
先在层内用DCGAN生成单层图像,然后在层间用lstm使得图像的真实性更强。
实验结果
第二篇文章主要讲的是输入运动骨架序列+静态图像如何输入一端动态的任务运动(根据骨架运动)视频,在这个例子中骨架信息辅助,就相当于在运动空间上加上了约束条件。
使用的还是GAN生成器+判别器的方法。在生成网络的设计中,输入包括骨架信息和图片,采用孪生网络结构,利用CNN Encoder-Decoder结构进行特征学习。
生成网络的设计。
总结
基于锚图的视觉大数据分析
汪萌教授做的报告是关于锚图的视觉大数据分析。关于锚图概念的引入,首先,图的学习在视觉数据分类、聚类等应用中取得了良好的效果,但是在其构图与优化的过程中的巨大运算量使得其无法运用于大规模数据。而锚图的引入是在原来的图基础上选取一些代表性的锚点,这样使得传统图的方法可以应用于大规模视觉数据分析。
在构建锚图的基础上,运算量如果依然比较大的话,作者又提出可以通过构建层次话锚图的方法。
跨媒体分析、理解与应用
这份报告是北京大学的彭宇新教授做的。个人感觉这是这次论坛最后收获的一份报告,彭老师的报告干货满满,介绍了北大近年来在多媒体数据处理方向的研究进展。
首先需要介绍的是跨媒体分析的总体思路。对于多媒体数据,我们首先要做的还是要在单模态内容的分析与识别技术上去的突破,然后再来考虑多模态下的分析理解,比如多模态的话题检测与追踪,多模态综合分析与识别。
细粒度图像分类
在这里接触到了一些我比较陌生的名次动态扩容增量学习、增量深度学习。可能以后有机会可以阅读以一下paper.
同时,北大在针对细粒度特征学习上,还提出了物体——局部两级视觉注意的深度模型,利用不同的神经网络,分别关注对象级注意力和部件级注意力。比如对于一张鸟的图像,部件级注意力关注的可能是鸟嘴、鸟头之类的东西。
paper的名称
在部件选择的问题上,北大进一步提出了空间约束的显著性部件选择模型,可以进行有效的显著性部件的选择。
针对细粒度的选择问题,北大又提出了通过引入定位的手段(Faster R-CNN)来进一步提升分类的准确率。
建立了视觉-文本联合建模的图像细粒度表示方法,实现了多粒度、多角度、多层次的图像描述。
跨媒体关联与检索
针对跨媒体的问题,首先是需要将不同模态下的数据转化到同一个语义空间当中,并且建模关联关系和高层语义。北大采用的是基于稀疏和半监督规约的统一表征方法。
基于跨媒体语义单元的统一表征方法
基于跨媒体多深度网络结构的统一表征方法
基于多粒度层级网络的跨媒体关联学习方法
针对跨媒体训练样本不足的问题,提出了跨媒体混合迁移网络方法,混合了单媒体迁移和跨媒体迁移。
跨媒体关联传递算法
数据集和源码下载地址
综述论文
研究室网址
层次记忆网络:面向跨媒体推理的视频问答方法
韩亚洪教授分享的是针对视频问答的研究。视频数据由于增加了时间维度而更加复杂。本篇报告主要提出了新的层次记忆网络模型。
在处理视频的时候,一个方向是在video caption的时候找到时序兴趣区域,比如ppt上的图,我们可以检测出代表不同事物几个块,但在此时,我们最关心的是奔跑着的运动员。
文章的主要结构是这样的:首先用一个ROI选择器生成ROI,然后利用DMRM对ROI进行译码处理,然后用LSTM生成句子。
(值得一提的是,这篇论文是ACM MM2017的最佳论文候选之一,毕竟是浙大的老学长,牛逼)
https://ziweiyang.github.io/ 代码地址
visual QA的流程,将图像用CNN提取特征,问题用词向量+LSTM的方法处理,然后将两者merge,并且预测回答。
在处理视频的时候,同时处理视频和字幕,得到最终的结果。
这篇关于CNCC day3 迈向新一代人工智能(AI2.0)的多媒体计算的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!