2023年计算机视觉领域突破性研究有哪些?

2024-02-03 22:52

本文主要是介绍2023年计算机视觉领域突破性研究有哪些?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  • B站:啥都会一点的研究生
  • 公众号:啥都会一点的研究生

​回顾2023年,计算机视觉领域有哪些较为突出的研究成果?一起看看吧

SAM(Segment Anything Model)

在这里插入图片描述

SAM 由 Meta AI 开发,是 CV 中分割任务的基础模型,彻底改变了像素级分类,几乎可以分割图像中的任何内容。这一发展为各种数据集的复杂分割任务开辟了新的途径

SAM可根据输入提示(如点或方框)生成高质量的对象遮罩,并可用于为图像中的所有对象生成遮罩。该模型已在一个包含 1100 万张图像和 11 亿个遮罩的数据集上进行过训练,在各种分割任务中都具有很强的零误差性能,放眼2023毫无疑问是top级进展

https://github.com/facebookresearch/segment-anything

Multimodal Large Language Models (LLMs)

在这里插入图片描述

像 GPT-4 这样的模型在文本和视觉数据之间架起了桥梁,为人工智能提供了理解和解释复杂的多模态输入的能力。它们在增强人工智能处理文本和视觉线索并对其做出反应的能力方面发挥了至关重要的作用,从而带来了更复杂的人工智能应用

https://openai.com/research/gpt-4

YOLOv8

在这里插入图片描述

YOLO 系列的这一升级版以其更快的速度和更高的精度为物体检测设定了新标准。是一款最先进的 (SOTA) 模型,它在以往 YOLO 版本成功的基础上引入了新的功能和改进,进一步提高了性能和灵活性。YOLOv8 设计快速、准确、易用,是各种物体检测和跟踪、实例分割、图像分类和姿态估计任务的绝佳选择

https://github.com/ultralytics/ultralytics

DINOv2(Self-supervised Learning Model)

在这里插入图片描述

在这里插入图片描述

DINOv2 标志着 CV 在自监督学习方面迈出了重要一步,通过减少对大型注释数据集的依赖,DINOv2 展示了自监督方法的潜力,可以用较少的标注图像训练出高质量的模型

https://ai.meta.com/blog/dino-v2-computer-vision-self-supervised-learning/

Text-to-Image (T2I) Models

涉及这方面的模型有很多

  • Midjourney creations (https://aituts.com/midjourney-versions/)
  • DALL-E 3 (https://openai.com/dall-e-3)
  • Stable Diffusion XL (https://stablediffusionxl.com/)
  • Imagen 2 (https://deepmind.google/technologies/imagen-2/)

这些研究极大地提高了人工智能根据文字描述生成图像的质量和逼真度,促进了数字艺术生成等创造性应用,使人工智能成为艺术家和设计师的宝贵工具

LoRA for CV

在这里插入图片描述

LoRA 最初是为微调大型语言模型而开发的,后来在 CV 中找到了新的应用。提供了一种灵活高效的方法,可针对特定任务调整现有模型,大大提高了 CV 模型的通用性

https://huggingface.co/blog/lcm_lora

Ego-Exo4D Dataset

在这里插入图片描述

Meta 提供的 Ego-Exo4D 数据集代表了视频学习和多模态感知方面的重大进步,提供了丰富的第一人称和第三人称镜头,可以为人类活动识别和其他应用开发更复杂的模型

https://ai.meta.com/blog/ego-exo4d-video-learning-perception/

Text-to-Video (T2V) Models

T2V 模型如

  • Runway (https://runwayml.com/)
  • Pika Labs (https://pika.art/)
  • Emu Video (https://emu-video.metademolab.com/)

通过文本描述创建高质量视频,为人工智能生成内容带来了新的维度。这一创新为娱乐和教育等领域提供了可能性,因为在这些领域动态视觉内容至关重要

Gaussian Splatting for View Synthesis

在这里插入图片描述

这项技术代表了视图合成领域的一种新方法,与神经辐射场(NeRFs)等现有方法相比,它在训练时间、延迟和准确性等方面都有所改进,从而重塑了三维渲染的格局

3D Gaussian Splatting 是《3D Gaussian Splatting for Real-Time Radiance Field Rendering》一书中描述的一种光栅化技术,可实时渲染从小图像样本中学习的逼真场景

https://huggingface.co/blog/gaussian-splatting
https://huggingface.co/papers/2308.04079

StyleGAN3

在这里插入图片描述
StyleGAN3 突破了生成模型的界限,尤其是在创建超逼真图像和视频方面。这一进步拓展了生成模型在创建精细逼真的数字艺术和动画方面的能力

https://github.com/NVlabs/stylegan3

以上就是本期的全部内容,更多文字总结可关注公粽号【啥都会一点的研究生】,我是啥都生,下次再见

这篇关于2023年计算机视觉领域突破性研究有哪些?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/675670

相关文章

《计算机英语》Unit 1 Computer Overview 计算机概述

期末试卷组成 1、选择20道 2、判断20道 3、词汇翻译(单词+词组,参照课后习题) 4、翻译2道(一道原题,参照作业) SectionA About Computer 关于计算机 algorithm          n.  算法  operate          v.  操作  digital           adj. 数字的  integrated circuit

据阿谱尔APO Research调研显示,2023年全球髓内钉市场销售额约为4.7亿美元

根据阿谱尔 (APO Research)的统计及预测,2023年全球髓内钉市场销售额约为4.7亿美元,预计在2024-2030年预测期内将以超过3.82%的CAGR(年复合增长率)增长。 髓内钉市场是指涉及髓内钉制造、分销和销售的行业。髓内钉是一种用于整形外科手术的医疗器械,用于稳定长骨骨折,特别是股骨、胫骨和肱骨。髓内钉通常由不銹钢或钛等材料制成,并插入骨的髓管中,以在愈合过程中提供结构支

计算机组成原理——RECORD

第一章 概论 1.固件  将部分操作系统固化——即把软件永恒存于只读存储器中。 2.多级层次结构的计算机系统 3.冯*诺依曼计算机的特点 4.现代计算机的组成:CPU、I/O设备、主存储器(MM) 5.细化的计算机组成框图 6.指令操作的三个阶段:取指、分析、执行 第二章 计算机的发展 1.第一台由电子管组成的电子数字积分和计算机(ENIAC) 第三章 系统总线

风水研究会官网源码系统-可展示自己的领域内容-商品售卖等

一款用于展示风水行业,周易测算行业,玄学行业的系统,并支持售卖自己的商品。 整洁大气,非常漂亮,前端内容均可通过后台修改。 大致功能: 支持前端内容通过后端自定义支持开启关闭会员功能,会员等级设置支持对接官方支付支持添加商品类支持添加虚拟下载类支持自定义其他类型字段支持生成虚拟激活卡支持采集其他站点文章支持对接收益广告支持文章评论支持积分功能支持推广功能更多功能,搭建完成自行体验吧! 原文

计算机Java项目|基于SpringBoot的网上摄影工作室

作者主页:编程指南针 作者简介:Java领域优质创作者、CSDN博客专家 、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、腾讯课堂常驻讲师 主要内容:Java项目、Python项目、前端项目、人工智能与大数据、简历模板、学习资料、面试题库、技术互助 收藏点赞不迷路  关注作者有好处 文末获取源码  项目编号:L-BS-QBBSSPRINGBOOT

【计算机组成原理】部分题目汇总

计算机组成原理 部分题目汇总 一. 简答题 RISC和CICS 简要说明,比较异同 RISC(精简指令集)注重简单快速的指令执行,使用少量通用寄存器,固定长度指令,优化硬件性能,依赖软件(如编译器)来提升效率。 CISC(复杂指令集)包含多样复杂的指令,能一条指令完成多步操作,采用变长指令,减少指令数但可能增加执行时间,倾向于硬件直接支持复杂功能减轻软件负担。 两者均追求高性能,但RISC

安徽理工大学2计算机考研情况,招收计算机专业的学院和联培都不少!

安徽理工大学(Anhui University of Science and Technology),位于淮南市,是安徽省和应急管理部共建高校,安徽省高等教育振兴计划“地方特色高水平大学”建设高校,安徽省高峰学科建设计划特别支持高校,国家“中西部高校基础能力建设工程”支持高校,入选教育部“卓越工程师教育培养计划”实施高校、中国人民解放军后备军官培养选拔基地、全国首批深化创新创业教育改革示范高校、首

关于修改计算机的处理器数和最大内存数的问题

问题描述: 刚开始本来是想让计算机的运行速度运行的快点,于是在网上搜索如何让计算机的运行速度更快,找到了一种关于修改计算机内存数和计算机的处理核数可以让计算机运行的更快。 遇到问题: 当我通过命令msconfig →引导→高级选项→勾选了处理器数和最大内存数,然后重启,结构整个计算机都卡的要死,于是记录下来。网上的答案有时候真的是很不负责任,也有可能是自己技术不到位。 结果:取消处理器和内

兰州理工大学24计算机考研情况,好多专业都接受调剂,只有计算机专硕不接收调剂,复试线为283分!

兰州理工大学(Lanzhou University of Technology),位于甘肃省兰州市,是甘肃省人民政府、教育部、国家国防科技工业局共建高校,甘肃省高水平大学和“一流学科”建设高校;入选国家“中西部高校基础能力建设工程”、教育部“卓越工程师计划”、“111计划”、新工科研究与实践项目、国家大学生创新性实验计划,是国家国防教育特色学校、全国毕业生就业典型经验高校、中国政府奖

ULTRAINTERACT 数据集与 EURUS 模型:推动开源大型语言模型在推理领域的新进展

在人工智能的浪潮中,大型语言模型(LLMs)已经成为推动自然语言处理技术发展的关键力量。它们在理解、生成语言以及执行复杂任务方面展现出了巨大的潜力。然而,尽管在特定领域内取得了显著进展,现有的开源LLMs在处理多样化和高难度的推理任务时,仍然难以与最前沿的专有模型相媲美。这一差距不仅限制了开源模型的应用范围,也阻碍了整个领域的发展和创新。 推理任务,特别是那些需要综合运用数学知识、编程技能和逻辑