2023年计算机视觉领域突破性研究有哪些?

2024-02-03 22:52

本文主要是介绍2023年计算机视觉领域突破性研究有哪些?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  • B站:啥都会一点的研究生
  • 公众号:啥都会一点的研究生

​回顾2023年,计算机视觉领域有哪些较为突出的研究成果?一起看看吧

SAM(Segment Anything Model)

在这里插入图片描述

SAM 由 Meta AI 开发,是 CV 中分割任务的基础模型,彻底改变了像素级分类,几乎可以分割图像中的任何内容。这一发展为各种数据集的复杂分割任务开辟了新的途径

SAM可根据输入提示(如点或方框)生成高质量的对象遮罩,并可用于为图像中的所有对象生成遮罩。该模型已在一个包含 1100 万张图像和 11 亿个遮罩的数据集上进行过训练,在各种分割任务中都具有很强的零误差性能,放眼2023毫无疑问是top级进展

https://github.com/facebookresearch/segment-anything

Multimodal Large Language Models (LLMs)

在这里插入图片描述

像 GPT-4 这样的模型在文本和视觉数据之间架起了桥梁,为人工智能提供了理解和解释复杂的多模态输入的能力。它们在增强人工智能处理文本和视觉线索并对其做出反应的能力方面发挥了至关重要的作用,从而带来了更复杂的人工智能应用

https://openai.com/research/gpt-4

YOLOv8

在这里插入图片描述

YOLO 系列的这一升级版以其更快的速度和更高的精度为物体检测设定了新标准。是一款最先进的 (SOTA) 模型,它在以往 YOLO 版本成功的基础上引入了新的功能和改进,进一步提高了性能和灵活性。YOLOv8 设计快速、准确、易用,是各种物体检测和跟踪、实例分割、图像分类和姿态估计任务的绝佳选择

https://github.com/ultralytics/ultralytics

DINOv2(Self-supervised Learning Model)

在这里插入图片描述

在这里插入图片描述

DINOv2 标志着 CV 在自监督学习方面迈出了重要一步,通过减少对大型注释数据集的依赖,DINOv2 展示了自监督方法的潜力,可以用较少的标注图像训练出高质量的模型

https://ai.meta.com/blog/dino-v2-computer-vision-self-supervised-learning/

Text-to-Image (T2I) Models

涉及这方面的模型有很多

  • Midjourney creations (https://aituts.com/midjourney-versions/)
  • DALL-E 3 (https://openai.com/dall-e-3)
  • Stable Diffusion XL (https://stablediffusionxl.com/)
  • Imagen 2 (https://deepmind.google/technologies/imagen-2/)

这些研究极大地提高了人工智能根据文字描述生成图像的质量和逼真度,促进了数字艺术生成等创造性应用,使人工智能成为艺术家和设计师的宝贵工具

LoRA for CV

在这里插入图片描述

LoRA 最初是为微调大型语言模型而开发的,后来在 CV 中找到了新的应用。提供了一种灵活高效的方法,可针对特定任务调整现有模型,大大提高了 CV 模型的通用性

https://huggingface.co/blog/lcm_lora

Ego-Exo4D Dataset

在这里插入图片描述

Meta 提供的 Ego-Exo4D 数据集代表了视频学习和多模态感知方面的重大进步,提供了丰富的第一人称和第三人称镜头,可以为人类活动识别和其他应用开发更复杂的模型

https://ai.meta.com/blog/ego-exo4d-video-learning-perception/

Text-to-Video (T2V) Models

T2V 模型如

  • Runway (https://runwayml.com/)
  • Pika Labs (https://pika.art/)
  • Emu Video (https://emu-video.metademolab.com/)

通过文本描述创建高质量视频,为人工智能生成内容带来了新的维度。这一创新为娱乐和教育等领域提供了可能性,因为在这些领域动态视觉内容至关重要

Gaussian Splatting for View Synthesis

在这里插入图片描述

这项技术代表了视图合成领域的一种新方法,与神经辐射场(NeRFs)等现有方法相比,它在训练时间、延迟和准确性等方面都有所改进,从而重塑了三维渲染的格局

3D Gaussian Splatting 是《3D Gaussian Splatting for Real-Time Radiance Field Rendering》一书中描述的一种光栅化技术,可实时渲染从小图像样本中学习的逼真场景

https://huggingface.co/blog/gaussian-splatting
https://huggingface.co/papers/2308.04079

StyleGAN3

在这里插入图片描述
StyleGAN3 突破了生成模型的界限,尤其是在创建超逼真图像和视频方面。这一进步拓展了生成模型在创建精细逼真的数字艺术和动画方面的能力

https://github.com/NVlabs/stylegan3

以上就是本期的全部内容,更多文字总结可关注公粽号【啥都会一点的研究生】,我是啥都生,下次再见

这篇关于2023年计算机视觉领域突破性研究有哪些?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/675670

相关文章

计算机毕业设计 大学志愿填报系统 Java+SpringBoot+Vue 前后端分离 文档报告 代码讲解 安装调试

🍊作者:计算机编程-吉哥 🍊简介:专业从事JavaWeb程序开发,微信小程序开发,定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事,生活就是快乐的。 🍊心愿:点赞 👍 收藏 ⭐评论 📝 🍅 文末获取源码联系 👇🏻 精彩专栏推荐订阅 👇🏻 不然下次找不到哟~Java毕业设计项目~热门选题推荐《1000套》 目录 1.技术选型 2.开发工具 3.功能

CSP 2023 提高级第一轮 CSP-S 2023初试题 完善程序第二题解析 未完

一、题目阅读 (最大值之和)给定整数序列 a0,⋯,an−1,求该序列所有非空连续子序列的最大值之和。上述参数满足 1≤n≤105 和 1≤ai≤108。 一个序列的非空连续子序列可以用两个下标 ll 和 rr(其中0≤l≤r<n0≤l≤r<n)表示,对应的序列为 al,al+1,⋯,ar​。两个非空连续子序列不同,当且仅当下标不同。 例如,当原序列为 [1,2,1,2] 时,要计算子序列 [

PostgreSQL核心功能特性与使用领域及场景分析

PostgreSQL有什么优点? 开源和免费 PostgreSQL是一个开源的数据库管理系统,可以免费使用和修改。这降低了企业的成本,并为开发者提供了一个活跃的社区和丰富的资源。 高度兼容 PostgreSQL支持多种操作系统(如Linux、Windows、macOS等)和编程语言(如C、C++、Java、Python、Ruby等),并提供了多种接口(如JDBC、ODBC、ADO.NET等

计算机视觉工程师所需的基本技能

一、编程技能 熟练掌握编程语言 Python:在计算机视觉领域广泛应用,有丰富的库如 OpenCV、TensorFlow、PyTorch 等,方便进行算法实现和模型开发。 C++:运行效率高,适用于对性能要求严格的计算机视觉应用。 数据结构与算法 掌握常见的数据结构(如数组、链表、栈、队列、树、图等)和算法(如排序、搜索、动态规划等),能够优化代码性能,提高算法效率。 二、数学基础

一种改进的red5集群方案的应用、基于Red5服务器集群负载均衡调度算法研究

转自: 一种改进的red5集群方案的应用: http://wenku.baidu.com/link?url=jYQ1wNwHVBqJ-5XCYq0PRligp6Y5q6BYXyISUsF56My8DP8dc9CZ4pZvpPz1abxJn8fojMrL0IyfmMHStpvkotqC1RWlRMGnzVL1X4IPOa_  基于Red5服务器集群负载均衡调度算法研究 http://ww

生信圆桌x生信分析平台:助力生物信息学研究的综合工具

介绍 少走弯路,高效分析;了解生信云,访问 【生信圆桌x生信专用云服务器】 : www.tebteb.cc 生物信息学的迅速发展催生了众多生信分析平台,这些平台通过集成各种生物信息学工具和算法,极大地简化了数据处理和分析流程,使研究人员能够更高效地从海量生物数据中提取有价值的信息。这些平台通常具备友好的用户界面和强大的计算能力,支持不同类型的生物数据分析,如基因组、转录组、蛋白质组等。

开题报告中的研究方法设计:AI能帮你做什么?

AIPaperGPT,论文写作神器~ https://www.aipapergpt.com/ 大家都准备开题报告了吗?研究方法部分是不是已经让你头疼到抓狂? 别急,这可是大多数人都会遇到的难题!尤其是研究方法设计这一块,选定性还是定量,怎么搞才能符合老师的要求? 每次到这儿,头脑一片空白。 好消息是,现在AI工具火得一塌糊涂,比如ChatGPT,居然能帮你在研究方法这块儿上出点主意。是不

研究人员在RSA大会上演示利用恶意JPEG图片入侵企业内网

安全研究人员Marcus Murray在正在旧金山举行的RSA大会上公布了一种利用恶意JPEG图片入侵企业网络内部Windows服务器的新方法。  攻击流程及漏洞分析 最近,安全专家兼渗透测试员Marcus Murray发现了一种利用恶意JPEG图片来攻击Windows服务器的新方法,利用该方法还可以在目标网络中进行特权提升。几天前,在旧金山举行的RSA大会上,该Marcus现场展示了攻击流程,

HNU-2023电路与电子学-实验3

写在前面: 一、实验目的 1.了解简易模型机的内部结构和工作原理。 2.分析模型机的功能,设计 8 重 3-1 多路复用器。 3.分析模型机的功能,设计 8 重 2-1 多路复用器。 4.分析模型机的工作原理,设计模型机控制信号产生逻辑。 二、实验内容 1.用 VERILOG 语言设计模型机的 8 重 3-1 多路复用器; 2.用 VERILOG 语言设计模型机的 8 重 2-1 多

java计算机毕设课设—停车管理信息系统(附源码、文章、相关截图、部署视频)

这是什么系统? 资源获取方式在最下方 java计算机毕设课设—停车管理信息系统(附源码、文章、相关截图、部署视频) 停车管理信息系统是为了提升停车场的运营效率和管理水平而设计的综合性平台。系统涵盖用户信息管理、车位管理、收费管理、违规车辆处理等多个功能模块,旨在实现对停车场资源的高效配置和实时监控。此外,系统还提供了资讯管理和统计查询功能,帮助管理者及时发布信息并进行数据分析,为停车场的科学