手机也可以训练视频识别模型?麻省理工找到全新应用落地场景

本文主要是介绍手机也可以训练视频识别模型?麻省理工找到全新应用落地场景,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

近日,麻省理工学院和IBM沃森人工智能实验室的研究人员开发了一种新技术,可以在处理能力非常有限的手机或其他设备上训练视频识别模型。用户可以上传任何照片,并编辑建筑物、植物群和固定装置外观的工具。视觉识别作为深度学习的最强技能,已经成为了计算机视觉算法可用来分析医学图像,使自动驾驶汽车成为可能,并驱动人脸识别的发展。

通常算法将视频分割成图像帧,并在每个帧上运行识别算法。然后通过观察对象在随后的帧中的变化,将视频中显示的动作拼接在一起。该方法要求算法“记住”它在每一帧中看到的内容,以及它看到这些内容的顺序。新方法中,算法提取每一帧对象的基本草图,并将它们叠加起来。算法可以观察草图中物体在空间中的移动,而不是记住什么时候发生了什么。在测试中,研究人员发现,这种新方法训练视频识别模型的速度是现有方法的三倍。它还能通过一台小型电脑和照相机来识别手势,这些设备的电量仅够给自行车灯照明用。

这项新技术有助于减少现有计算机视觉商业应用中的延迟和计算成本。它可以通过加速自动驾驶汽车对传入视觉信息的反应,让它们变得更安全。还可以解锁以前无法实现的新应用,比如让手机帮助诊断病人或分析医学图像。

麻省理工学院和IBM沃森人工智能实验室的研究是这一日益增长的趋势的一部分,这种趋势将最先进的模型缩小到更易于管理的规模,也为计算机视觉领域找到了更多的落地方向。

当前计算机视觉的应用场景主要有以下几个方向:

人脸识别

相关数据显示人脸识别是人工智能计算机视觉领域中最热门的应用。人脸识别技术目前已经广泛应用于金融、司法、军队、公安、边检、政府、航天、电力、工厂、教育、医疗等行业。据业内人士分析,我国的人脸识别产业的需求旺盛,需求推动导致企业敢于投入资金。目前,该技术已具备大规模商用的条件,未来三到五年将高速增长。而今年,这一技术有望在金融与安防领域迎来大爆发。

代表企业:旷视科技、依图科技、商汤科技、极链科技、云从科技等。

视频监控

视频监控分析是人工智能计算机视觉领域中第二大热门应用。 人工智能技术可以对结构化的人、车、物等视频内容信息进行快速检索、查询。这项应用使得让公安系统在繁杂的监控视频中搜寻到罪犯的有了可能。在大量人群流动的交通枢纽,该技术也被广泛用于人群分析、防控预警等。

视频监控领域盈利空间广阔,商业模式多种多样,既可以提供行业整体解决方案,也可以销售集成硬件设备。将技术应用于视频及监控领域在人工智能公司中正在形成一种趋势,这项技术应用将率先在安防、交通甚至零售等行业掀起应用热潮。

代表企业:商汤科技、旷视科技、依图科技等。

图片识别分析

静态图片识别应用热度在视觉与图像领域中排名第三。将人工智能技术单纯用于图片识别分析的应用企业数量并不如预想的多,可能有以下几个方面原因:

1、目前视频监控方向的盈利空间大,众多企业的注意力都放在了视频监控领域。

2、人脸识别属于图片识别的一个应用场景,做人脸识别的大多数企业同时也在提供图片识别服务,但是销售效果不佳,主要赢利点还在于人脸识别。

3、图片识别大多商用场景还属于蓝海,潜力有待开发。

4、图片数据大多被大型互联网企业所掌握,创业公司数据资源稀少。

代表企业:旷视科技、极链科技、码隆科技等。

无人驾驶

随着汽车的普及,汽车已经成为人工智能技术非常大的应用投放方向,但就目前来说,想要完全实现自动驾驶/无人驾驶,距离技术成熟还有一段路要走。不过利用人工智能技术,汽车的驾驶辅助的功能及应用越来越多,这些应用多半是基于计算机视觉和图像处理技术来实现。

代表企业:纵目科技、Waymo、图森科技、驭势科技、佑驾创新、中天安驰等。

工业视觉

机器视觉可以快速获取大量信息,并进行自动处理。在自动化生产过程中,人们将机器视觉系统广泛地用于工况监视、成品检验和质量控制等领域。机器视觉系统的特点是提高生产的柔性和自动化程度。运用在一些危险工作环境或人工视觉难以满足要求的场合;此外,在大批量工业生产过程中,机器视觉检测可以大大提高生产效率和生产的自动化程度。

代表企业:创想智控、凯视佳、拓视觉、帆声图像、华睿科技等。

随着越来越多的人工智能研究被转化为应用,对更小模型的需求将会增加。国内也在计算机视觉领域加大了技术投资力度,诞生了诸如商汤科技、旷视科技、依图科技、极链科技等优秀的人工智能初创企业。未来,这些优秀的人工智能企业也会寻找到更多的落地场景,继续推动计算机视觉这一技术在应用场景快速落地。

这篇关于手机也可以训练视频识别模型?麻省理工找到全新应用落地场景的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/506482

相关文章

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

hdu1394(线段树点更新的应用)

题意:求一个序列经过一定的操作得到的序列的最小逆序数 这题会用到逆序数的一个性质,在0到n-1这些数字组成的乱序排列,将第一个数字A移到最后一位,得到的逆序数为res-a+(n-a-1) 知道上面的知识点后,可以用暴力来解 代码如下: #include<iostream>#include<algorithm>#include<cstring>#include<stack>#in

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推