擂台:灵异视频辨真伪

2023-12-20 00:30
文章标签 视频 灵异 真伪 擂台

本文主要是介绍擂台:灵异视频辨真伪,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

“大数据”和传统的数据最本真的区别就是:数据的形态变了,比以前更加多样,携带的信息更加丰富,因而对数据分析的要求更高了。西方有句话叫“Rubbish in rubbish out”。从数据处理的角度看,就是要保证数据的真实性,否则后续的分析意义不大。那么“视频”作为一种信息丰富的数据源,它的真实性如何保证?怎样验证呢?让我们以这个视频为例,诚邀您进行分析。


奖励

(1)如果您的方案足够好,我们会在文摘上发布,为您和您的公司做广告

(2)如果您来北京或在北京,大数据文摘创办人愿意请您吃饭,也许还有文摘团队的美女哦:)


投稿请发邮件 wangdc@bigdatadigest.cn

邮件标题:打擂:灵异视频识别(XXX公司or个人)



今日奉上干货文章


当机器学习遇上计算机视觉


作者:Jamie Shotton,Antonio Criminisi,Sebastian Nowozin

机构:微软剑桥研究院

译者:andydoo,kbyran

摘自:译言(www.yeeyan.org)


计算机视觉在上一个世纪60年代脱胎于人工智能与认知神经科学,旨在通过设计算法来让计算机自动理解图像的内容。为了“解决”机器视觉的问题,1966年,在麻省理工学院,这个问题作为一个夏季项目被提出,但是人们很快发现要解决这个问题可能还需要更长时间。在50年后的今天,一般的图像理解任务仍旧是不能得到完美解决。但是也已取得显著进展,并且随着机器视觉算法商业化的成功,机器视觉产品已经开始拥有广泛的用户,包括图像分割(例如微软office中去除图片背景的功能)、图像检索、人脸检测对焦和Kinect的人体运动捕捉等。几乎可以确定的是机器视觉最近的突飞猛进主要得益于最近15到20年机器学习领域的快速发展。


本主题的第一篇文章主要是探索一下机器视觉所面临的挑战和介绍一个非常重要的机器学习技术——像素级分类决策树算法。


图像分类

想像一下并试着回答下面这个有关图像分类的问题:“在这张图片中有一辆汽车吗”。对于计算机来说,一张图片仅仅是由三原色(红、绿、蓝)构成的像素组成的格子,三原色中每一个颜色通道的值的范围都是0到255。这些值的改变不仅依赖于事物对象是否在图片中呈现,也依赖于一些干扰事件,比如摄像机的视角、灯光条件、背景和对象的形态。另外,一个必须处理的问题是不同类别的汽车呈现不同的形状。例如,这辆汽车可能是辆旅行车、或者小卡车、或者是辆跑车,这些都会对图片像素造成很大影响。


幸运的是监督机器学习算法提供了替代原本需要人工编码解决这些多可能性的问题的方式。通过收集图片的训练集和适当的人工标记每一张训练图片,我们能够使用最好的机器学习算法找到哪些像素模式是同要识别的对象相关的以及哪些是干扰因素产生的。我们希望我们的算法最终能够适用于识别以前没有经过训练的新的样本,并且对于噪声保持不变性。在新的机器视觉算法的发展和数据集的收集标注两个方面我们都取得了长足的进步。


像素级分类决策树算法

图片在很多层面上包含细节。就像前面我们提到的,我们可以问一个问题——在整张图片中是否有一个特定的对象类别(比如汽车)。现在我们可以问一个更难点的问题——这张图里都包含了什么,这就变成了一个著名的问题“图像语义分割”:提取图片场景中所有的对象。例如下面街道场景的图片


0


你可以想象一下,这可以用于帮助你有选择的编辑一些照片,或者用于拼接一张全新的照片;我们还能马上想出更多的应用场景。


解决语义分割问题可以有很多方法,但是一个最有效的算法是像素级分类:训练一个分类器在像素级别预测每一个对象(如汽车、街道、树、墙等)分布情况。这个任务带给机器学习一些计算问题,特别是图片包括很多的像素的时候(例如,诺基亚1020智能手机拍照的像素是4100万像素)。这就意味着整个运算时间是我们分类任务全部训练和测试样本图片乘以几百万的倍数。


这个问题的规模促使我们寻找一个更有效的分类模型——决策树(也称为随机树或随机决策树)。一个决策树是一个分离训练后的决策树的集合,如下图所示。


0


每一决策树都有一个根节点,多个内部“分支”节点,和多个叶子节点。测试分类时,从根节点开始,并且计算二叉“分支函数”,这个函数可能就像“这个像素是否比它的邻域像素更红”一样简单。根据该二元决策,它将沿分支向左或向右,接下来查看下一个“分支函数”,一直重复这样的操作。当最终达到叶子节点,一个存储的预测——通常是一个包含类别标签的直方图——就是输出(你也可以去看一下ChrisBurges最近的一篇非常出色的论文,是关于提升变种决策树在搜索排名中的应用)。


决策树的美在于他的执行效率:虽然从根节点到叶子节点包含指数级可能的路径,但是任意一个独立的测试像素仅仅通过一个路经。此外,分支函数的计算是以此前的事件为条件的:例如,分类器只需要依赖此前分支决策的答案提出正确的问题就行了。这很像“20问”游戏:当你仅被允许去问少量问题时,你可以很快学会根据你以前问题的答案来调整自己要提出的下一个问题。


有了这项技术,我们已经能够成功处理这些不同的问题,如照片的语义分割,街头的场景分割,人体解剖学的3D医学扫描图像分割,摄像头的重定位和使用Kinect深度摄像头对人体身体部位的划分。对于Kinect来讲,决策树测试时间效率是关键:我们有一个非常严格的计算预算,但是这样的计算要求搭配XboxGPU并行处理像素的能力,意味着我们能够适应这种应用场景。


深层神经网络

在过去的几年里,我们视觉研究者所使用的测试数据集无论在质量上,还是数量上都有了快速的提高。这些进步在很大程度归因于吸收了众包的成果。众包项目允许我们把数百万张已标记图像加入测试数据集。其中一个最具挑战性的测试数据集ImageNet,就包含了数万个种类、超过百万张已标注层次的图像。


然而多年来,对ImageNet测试数据集的识别工作进展较缓慢,直到2012年,Krizhevsky等人的成果震惊了业界。他们使用通用GPU配合一些看似细微的算法改进,从而更深层次地训练卷积神经网络。最终,他们在ImageNet的1000个分类测试中显著提升了图像分类的准确性。这项成果还赢得了大众媒体的关注,甚至导致相关的初创公司被大笔收购。自从那以后,“深度学习”开始成为计算机视觉领域的热门话题,而最近发表的文章也开始涵盖到物体定位、脸部识别和人体姿势识别等与“深度学习”息息相关的内容。


展望未来

深度卷积网络毫无疑问是相当强大的,然而它真的能解决计算机视觉领域的一切问题吗?可以肯定的是,它还会继续火热下去并且推动业界未来几年的发展,同时我们也相信未来还会有新的突破性进展。谁也说不准会有哪些突破,但我们会为你预测一些我们认为很有可能实现的突破点:


语义分析:以上的网络模型只能学会理解图像内容的表意,而不能深入理解图像中各个物体、物体之间如何相互联系以及特定物体在生活情景中的作用,例如我们不能轻率地根据头发看起来会有点光泽,和他们拿着电吹风这一事实,很有把握地推断他们的头发是湿的。像微软CoCo这样的新型测试数据集就可以帮助增强语义分析。该数据集对抽象图像提供非常详尽的分类标注,例如包含多个主体的图像会被标记出不重要的部分。


运行效率:虽然对测试图片的深度网络评估过程可以通过并行计算来加速,但是神经网络的构造并没有在上一篇中提及的逻辑运算概念:每一个训练样例必须通过遍历网络中的所有节点来输出结果。再者,即使配备高速的GPU,训练网络也要花费数天甚至数周,这使得深度网络不能快速投入试用。


结构学习:经过多年的研究发展,深度卷积网络现在拥有一个设计完善、相对死板的结构。也就是说,改变某一层大小或层级的数量会对模型做出预测的能力产生不良影响。除了简单粗暴地输入特定参数来最优化网络的形态,我们希望可以真正地直接从数据中学习出更加灵活的网络结构。


近年来,我们已经开始寻找突破这些瓶颈的方案。现在,我们很高兴能向你推荐我们最新的成果,决策丛林模型:根部相连接的决策有向无环图。你可以认为决策有向无环图是子节点相通的决策树,因此一个子节点可以存在多个父节点。我们不但证明了这种模型在内存消耗上比决策树降低了一个数量级,同时还能大大提高模型的泛化能力。有向无环图起初看起来很像神经网络,但是有两个重要的不同点:第一,其结构和模型参数都是从数据中学习而来的;第二,有向无环图保留了决策树中高效的逻辑运算:一个测试样例只沿着有向无环图的一条路径传递,而不是像神经网络一样遍历所有节点。我们正在积极尝试结合其他深度学习的形态,譬如结果的复用和树节点的纠缠,使得决策丛林能够真正有效地替代深度神经网络。


如果你对运用决策丛林模型解决问题感兴趣,Azure机器学习云平台中的Gemini模块将能带你探索得更深入。


总的来说,计算机视觉的前途一片光明,其中很大程度归功于机器学习。即便近年来视觉领域的快速发展已经让人难以置信了,但我们认为计算机视觉的研究未来还会震惊世界。


原文发布时间为:2015-07-12

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

这篇关于擂台:灵异视频辨真伪的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/514244

相关文章

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

《x86汇编语言:从实模式到保护模式》视频来了

《x86汇编语言:从实模式到保护模式》视频来了 很多朋友留言,说我的专栏《x86汇编语言:从实模式到保护模式》写得很详细,还有的朋友希望我能写得更细,最好是覆盖全书的所有章节。 毕竟我不是作者,只有作者的解读才是最权威的。 当初我学习这本书的时候,只能靠自己摸索,网上搜不到什么好资源。 如果你正在学这本书或者汇编语言,那你有福气了。 本书作者李忠老师,以此书为蓝本,录制了全套视频。 试

SAM2POINT:以zero-shot且快速的方式将任何 3D 视频分割为视频

摘要 我们介绍 SAM2POINT,这是一种采用 Segment Anything Model 2 (SAM 2) 进行零样本和快速 3D 分割的初步探索。 SAM2POINT 将任何 3D 数据解释为一系列多向视频,并利用 SAM 2 进行 3D 空间分割,无需进一步训练或 2D-3D 投影。 我们的框架支持各种提示类型,包括 3D 点、框和掩模,并且可以泛化到不同的场景,例如 3D 对象、室

树莓派5_opencv笔记27:Opencv录制视频(无声音)

今日继续学习树莓派5 8G:(Raspberry Pi,简称RPi或RasPi)  本人所用树莓派5 装载的系统与版本如下:  版本可用命令 (lsb_release -a) 查询: Opencv 与 python 版本如下: 今天就水一篇文章,用树莓派摄像头,Opencv录制一段视频保存在指定目录... 文章提供测试代码讲解,整体代码贴出、测试效果图 目录 阶段一:录制一段

基于树梅派的视频监控机器人Verybot

最近这段时间做了一个基于树梅派 ( raspberry pi ) 的视频监控机器人平台 Verybot ,现在打算把这个机器人的一些图片、视频、设计思路进行公开,并且希望跟大家一起研究相关的各种问题,下面是两张机器人的照片:         图片1:                   图片2                    这个平台的基本组成是:

PC与android平板通过浏览器监控Verybot的视频

下面这个视频是PC与android平板通过浏览器监控Verybot的视频:           http://v.youku.com/v_show/id_XNjYzNzYyMTIw.html

Verybot的几个视频

1、Verybot的运动控制                 http://v.youku.com/v_show/id_XNjYxNjg4MTM2.html           2、Verybot比较初步的网络视频监控           http://v.youku.com/v_show/id_XNjYxNjkyMjg0.html           3、V

java计算机毕设课设—停车管理信息系统(附源码、文章、相关截图、部署视频)

这是什么系统? 资源获取方式在最下方 java计算机毕设课设—停车管理信息系统(附源码、文章、相关截图、部署视频) 停车管理信息系统是为了提升停车场的运营效率和管理水平而设计的综合性平台。系统涵盖用户信息管理、车位管理、收费管理、违规车辆处理等多个功能模块,旨在实现对停车场资源的高效配置和实时监控。此外,系统还提供了资讯管理和统计查询功能,帮助管理者及时发布信息并进行数据分析,为停车场的科学

一款支持同一个屏幕界面同时播放多个视频的视频播放软件

GridPlayer 是一款基于 VLC 的免费开源跨平台多视频同步播放工具,支持在一块屏幕上同时播放多个视频。其主要功能包括: 多视频播放:用户可以在一个窗口中同时播放任意数量的视频,数量仅受硬件性能限制。支持多种格式和流媒体:GridPlayer 支持所有由 VLC 支持的视频格式以及流媒体 URL(如 m3u8 链接)。自定义网格布局:用户可以配置播放器的网格布局,以适应不同的观看需求。硬