CVPR最佳学生论文!1千万张图像、跨越45万+物种的超大数据集,多模态模型BioCLIP实现零样本学习

本文主要是介绍CVPR最佳学生论文!1千万张图像、跨越45万+物种的超大数据集,多模态模型BioCLIP实现零样本学习,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

不同于传统学术领域对期刊发表的重视,计算机界,尤其是机器学习、计算机视觉、人工智能等领域,顶级会议才是王道,无数「热门研究方向」、「创新方法」都将从这里流出。

作为计算机视觉乃至人工智能领域最具学术影响力的三大顶会之一,今年的国际计算机视觉与模式识别会议 (CVPR) 从会议规模到接受论文数量,都刷新了此前记录。

活动现场,图源:Dan Goldman

根据 CVPR 官方的最新公告,CVPR 2024 已经成为该会议历史上规模最大、参与人数最多的一届, 截止 6 月 19 日,现场参会人数已超过 1.2w 人。

图源:CVPR2024官方

此外,作为领先的计算机视觉盛会,CVPR 每年都会录用当前视觉领域的最新研究,在今年提交的 11,532 份有效论文中,2,719 篇论文被接收,与 CVPR 2023 相比,接收论文的数量提高 20.6%,而录用率却降低 2.2%。 这些数据表明,CVPR 2024 的热度、竞争激烈程度以及获奖论文的含金量均有所提升。

获奖论文数量,图源:php.cn

北京时间 6 月 20 日凌晨,CVPR 2024 正式公布了本届会议的最佳论文等奖项。据统计,本次共有 10 篇论文获奖,其中最佳论文 2 篇,最佳学生论文 2 篇,最佳论文提名 2 篇和最佳学生论文提名 4 篇。

BIoCLIP 获最佳学生论文,图源:CVPR2024官方

其中,「BIoCLIP: A Vision Foundation Model for the Tree of Life」被评为最佳学生论文。 对此,麻省理工学院计算机科学与人工智能实验室助理教授 Sara Beery 更是评价其作者和团队为「当之无愧」的获奖者,论文第一作者 Samuel Stevens 第一时间在平台上表示了感谢。

Sara Beery 在社交平台评价 BIoCLIP 团队当之无愧

HyperAI超神经将从数据集、模型架构、模型性能等方面,全面解读「BIoCLIP: A Vision Foundation Model for the Tree of Life」,并为大家汇总整理了一作 Sam Stevens 的其他成果。

论文下载地址:
https://arxiv.org/pdf/2311.18803

创建最大、最多样化的生物图像数据集

目前最大的机器学习生物图像数据集是 iNat21,包含 270 万张图像,覆盖 1 万个物种。尽管,与 ImageNet-1k 等通用领域数据集相比,iNat21 的分类广度有极大提升,但对于生物学而言,1 万个物种仍是凤毛麟角。国际自然保护联盟 (IUCN) 在 2022 年就报告了超过 200 万个已知物种,仅鸟类和爬行动物就分别超过 1 万个物种。

针对生物图像数据集物种类别限制的问题,研究人员构建了一个包含 1,000 万张图像的数据集 TreeOfLife-10M, 跨越 450K+ 物种,在数据集规模和物种多样性方面完成了革命性突破。

TreeOfLife-10M 中 108 个门类的树状图不同颜色代表不同的门类,方框大小代表样本的相对数量

该数据集结合了 iNaturalist、 BIOSCAN-1M 和生命百科全书 (Encyclopedia of Life, EOL) 中的生物图像。

TreeOfLife-10M 的数据来源

除了 iNat21 所覆盖的 1 万个物种类别外,研究人员从 EOL 下载了 660 万张图像,将 TreeOfLife-10M 扩展到覆盖额外的 44 万种分类群。同时,为了帮助基础模型学习昆虫的极细粒度视觉表征,研究人员还纳入了 BIOSCAN-1M,这是一个包含 100 万张实验室昆虫图像的最新数据集,覆盖 494 个不同的科、7,831 种物种分类。

TreeOfLife-10M 下载地址:
https://go.hyper.ai/Gliol

多模态模型 BioCLIP:基于 CLIP 提升泛化能力

与通用任务相比,生物学计算机视觉的标注空间 (label space) 更加丰富,不仅分类标注数量庞大,且标注在层级分类系统中相互连接,这无疑为训练高物种覆盖率、强泛化能力的基础模型带来了巨大挑战。

借助生物学数百年研究所积累的经验,研究人员认为,如果基础模型能够成功编码标注空间的结构,那么即便没有见过某个特定物种,模型就可能已经能够识别其所对应的属 (genus) 或科 (family) 并给出相应的表征,而这种层级表征 (hierarchical representation) 将有助于实现新分类群的少样本、甚至零样本学习。

基于此,研究人员选择了 OpenAI 开发的多模态模型架构 CLIP,并利用 CLIP 的多模态对比学习目标在 TREEOFLIFE-10M 上持续进行预训练。

具体而言,CLIP 对视觉编码器和文本编码器这两种单模态嵌入模型进行训练,从而最大化正对 (positive pairs) 之间的特征相似性,最小化负对 (negative pairs) 之间的特征相似性,其中正对来自训练数据,负对是 batch 中所有其他可能的配对。

BioCLIP 训练中的文本类型

此外,CLIP 的一个重要优势便是其文本编码器接受自由形式的文本,恰恰能够应对生物学领域多样化的类名格式问题。针对该研究中的文本形式,研究人员主要考虑了:

*** 分类名称 (Taxonomic name):** 标准的七级生物分类从高到低依次为界 (Kingdom)、门 (Phylum)、纲 (Class)、目 (Order)、科 (Family)、属 (Genus)、种 (Species)。对于每个物种,通过将从根到叶的所有标注连接成一个字符串来「展平 (flatten)」分类系统,这个字符串就是分类名称。

*** 学名 (Scientific name):** 由属和种组成。

*** 通用名 (Common name.):** 分类名称通常是拉丁文,而在通用的图像-文本预训练数据集中不常见。相反,诸如「黑嘴喜鹊 (black-billed magpie)」这样的通用名称更为普遍。需要注意的是,通用名称与分类群之间可能并不是一对一映射关系,一个物种可能有多个通用名称,或者同一个通用名称可能指多个物种。

在实际应用中,可能只有一种类型的标注输入,为了在推理时提高灵活性,研究人员提出了一种混合文本类型训练策略, 即在每个训练步骤中,将每个输入图像与从所有可用文本类型中随机抽取的文本配对。实验证明,这种训练策略不仅保持了分类名称的泛化优势,还在推理时提供了更多灵活性。

BioCLIP 识别过程

如上图 a 所示,两种不同植物 Onoclea sensibilis (d) 和 Onoclea hintonii (e) 的分类群或分类标签,除物种 (species) 外,完全相同。

上图 b 所示,文本编码器是一个自回归语言模型,能够自然编码 taxonomy 的分层表征 (hierarchical representations),其中的阶次表征 (order representation) Polypodiales 只能依赖于更高的阶次,从 Kingdom、Phylum 和 Class tokens 中吸收信息。这些分类标注 (taxonomic labels) 的分层表征被输入到标准的对比预训练目标中,并与图像表征 (d) 和 (e) 相匹配。

BioCLIP 和 CLIP 的预测示例

上图为 BioCLIP 和 CLIP 对鸟类 525、浮游生物、昆虫等五种的预测示例,正确标注为绿色,错误标注为红色。左侧一列为 BioCLIP 的正确预测。中间及右侧是 CLIP 错误标注但 BioCLIP 正确标注的图像。

BioCLIP 在零样本和少样本任务上表现出色

研究人员将 BioCLIP 与通用视觉模型进行了比较。结果显示 ,BioCLIP 在零样本和少样本任务中均表现出色,并且显著优于 CLIP 和 OpenCLIP, 在零样本和少样本任务中的平均绝对改善 (average absolute improvement) 分别为 17% 和 16%。内在分析进一步表明,BioCLIP 学习到了更细粒度的符合生命树的层次表示,解释了其卓越的泛化能力。

不同模型的零样本、一样本和五样本分类 top-1 准确率

具体而言,研究人员引入了一项新的评估任务「稀有物种 (RARE SPECIES)」,收集了世界自然保护联盟红色名录中的约 25K 个物种,这些物种被分类为近危、易危、濒危、极危或野外灭绝。研究人员在 EOL 数据集中,选取了至少有 30 幅图像的 400 个此类物种,然后将它们从 TreeOfLife-10M 中移除,创建了一个全新的稀有物种测试集, 每个物种有 30 幅图像。

对比结果如上图所示,BioCLIP 在零样本分类中明显优于基线 CLIP 模型以及 iNat21 训练的 CLIP 模型,尤其是在未见过的分类上(见 Rare Species 列)。

硕果累累,探索最佳 BioCLlP 背后的科研之道

「BioCLlP: A Vision Foundation Model for the Tree of Life」由美国俄亥俄州立大学、微软研究院、加州大学欧文分校、伦斯勒理工学院共同发布,论文的第一作者 Samuel Stevens 博士和通讯作者 Jiaman Wu 均来自俄亥俄州立大学。

尽管 Samuel Stevens 自谦地在其个人网页上描述自己「不是一个非常严肃对待自己的人」,但从他近几年丰硕的科研成果和不懈努力来看,他显然是一个严谨对待科研事业的人。

据了解,Samuel Stevens 从 2017 年开始,一直从事计算机方向的工作,多模态模型 BioCLlP 是他在 2023 年 12 月发布的一项研究成果,并于 2024 年 2 月被 CVPR 2024 接收。

事实上,类似 BioCLlP 等 computer vision 方向的工作只是他的研究方向之一,他的兴趣很广泛,也曾在 AI for crypto、various LLM projects 等领域展开了一系列研究。

例如,他曾参与的「MMMU:A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI」,提出了一个新基准 MMMU (大规模多任务语言理解), 作为目前业界最有影响力的大模型测评基准之一,MMMU 侧重于利用特定领域(科学、健康与医学、人文等)的知识进行高级感知和推理,要求多模态模型能够执行与专家面临的类似任务。

研究人员用其对 14 个开源 LMM 和专有 GPT-4V (ision) 进行了评估,发现即使是先进的 GPT-4V 也只达到了 56% 的准确率,这表明模型还有很大的改进空间。对此,研究人员表示,希望该基准能激励社区建立下一代多模态基础模型,以实现专家级人工通用智能。
MMMU: https://mmmu-benchmark.github.io

当然,他对科研的热情和开放态度也是他取得成功的关键要素。昨日,BioCLlP 被评为最佳学生论文的消息刚出来,Samuel Stevens 博士第一时间通过社交平台向外界表达了他的观点:「如果您想聊聊动物的计算机视觉、多模态基础模型或 AI for Science,请私信我!」

Samuel Stevens 在社交平台表达开放的态度

值得一提的是,Samuel Stevens 博士不仅在科研路上砥砺前行,亦不忘提携后进。他的个人网页上也分享着对初学者的建议:「如果你想开始机器学习和人工智能。或许可以从 Coursera 的机器学习课程和 Andrej Karpathy 的 Neural Networks : Zero to Hero 开始。这两门课程的质量都非常高,与其他免费资源相比,应该会提供很多价值。」

参考资料:
1. https://samuelstevens.me/#news

最后推荐一个活动!

扫码即可报名参与「Meet AI Compiler」技术沙龙第 5 期线下聚会↓

这篇关于CVPR最佳学生论文!1千万张图像、跨越45万+物种的超大数据集,多模态模型BioCLIP实现零样本学习的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1081805

相关文章

springboot+redis实现订单过期(超时取消)功能的方法详解

《springboot+redis实现订单过期(超时取消)功能的方法详解》在SpringBoot中使用Redis实现订单过期(超时取消)功能,有多种成熟方案,本文为大家整理了几个详细方法,文中的示例代... 目录一、Redis键过期回调方案(推荐)1. 配置Redis监听器2. 监听键过期事件3. Redi

SpringBoot全局异常拦截与自定义错误页面实现过程解读

《SpringBoot全局异常拦截与自定义错误页面实现过程解读》本文介绍了SpringBoot中全局异常拦截与自定义错误页面的实现方法,包括异常的分类、SpringBoot默认异常处理机制、全局异常拦... 目录一、引言二、Spring Boot异常处理基础2.1 异常的分类2.2 Spring Boot默

基于SpringBoot实现分布式锁的三种方法

《基于SpringBoot实现分布式锁的三种方法》这篇文章主要为大家详细介绍了基于SpringBoot实现分布式锁的三种方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、基于Redis原生命令实现分布式锁1. 基础版Redis分布式锁2. 可重入锁实现二、使用Redisso

SpringBoo WebFlux+MongoDB实现非阻塞API过程

《SpringBooWebFlux+MongoDB实现非阻塞API过程》本文介绍了如何使用SpringBootWebFlux和MongoDB实现非阻塞API,通过响应式编程提高系统的吞吐量和响应性能... 目录一、引言二、响应式编程基础2.1 响应式编程概念2.2 响应式编程的优势2.3 响应式编程相关技术

C#实现将XML数据自动化地写入Excel文件

《C#实现将XML数据自动化地写入Excel文件》在现代企业级应用中,数据处理与报表生成是核心环节,本文将深入探讨如何利用C#和一款优秀的库,将XML数据自动化地写入Excel文件,有需要的小伙伴可以... 目录理解XML数据结构与Excel的对应关系引入高效工具:使用Spire.XLS for .NETC

Nginx更新SSL证书的实现步骤

《Nginx更新SSL证书的实现步骤》本文主要介绍了Nginx更新SSL证书的实现步骤,包括下载新证书、备份旧证书、配置新证书、验证配置及遇到问题时的解决方法,感兴趣的了解一下... 目录1 下载最新的SSL证书文件2 备份旧的SSL证书文件3 配置新证书4 验证配置5 遇到的http://www.cppc

Nginx之https证书配置实现

《Nginx之https证书配置实现》本文主要介绍了Nginx之https证书配置的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起... 目录背景介绍为什么不能部署在 IIS 或 NAT 设备上?具体实现证书获取nginx配置扩展结果验证

SpringBoot整合 Quartz实现定时推送实战指南

《SpringBoot整合Quartz实现定时推送实战指南》文章介绍了SpringBoot中使用Quartz动态定时任务和任务持久化实现多条不确定结束时间并提前N分钟推送的方案,本文结合实例代码给大... 目录前言一、Quartz 是什么?1、核心定位:解决什么问题?2、Quartz 核心组件二、使用步骤1

使用Redis实现会话管理的示例代码

《使用Redis实现会话管理的示例代码》文章介绍了如何使用Redis实现会话管理,包括会话的创建、读取、更新和删除操作,通过设置会话超时时间并重置,可以确保会话在用户持续活动期间不会过期,此外,展示了... 目录1. 会话管理的基本概念2. 使用Redis实现会话管理2.1 引入依赖2.2 会话管理基本操作

mybatis-plus分表实现案例(附示例代码)

《mybatis-plus分表实现案例(附示例代码)》MyBatis-Plus是一个MyBatis的增强工具,在MyBatis的基础上只做增强不做改变,为简化开发、提高效率而生,:本文主要介绍my... 目录文档说明数据库水平分表思路1. 为什么要水平分表2. 核心设计要点3.基于数据库水平分表注意事项示例