CVPR最佳学生论文!1千万张图像、跨越45万+物种的超大数据集,多模态模型BioCLIP实现零样本学习

本文主要是介绍CVPR最佳学生论文!1千万张图像、跨越45万+物种的超大数据集,多模态模型BioCLIP实现零样本学习,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

不同于传统学术领域对期刊发表的重视,计算机界,尤其是机器学习、计算机视觉、人工智能等领域,顶级会议才是王道,无数「热门研究方向」、「创新方法」都将从这里流出。

作为计算机视觉乃至人工智能领域最具学术影响力的三大顶会之一,今年的国际计算机视觉与模式识别会议 (CVPR) 从会议规模到接受论文数量,都刷新了此前记录。

活动现场,图源:Dan Goldman

根据 CVPR 官方的最新公告,CVPR 2024 已经成为该会议历史上规模最大、参与人数最多的一届, 截止 6 月 19 日,现场参会人数已超过 1.2w 人。

图源:CVPR2024官方

此外,作为领先的计算机视觉盛会,CVPR 每年都会录用当前视觉领域的最新研究,在今年提交的 11,532 份有效论文中,2,719 篇论文被接收,与 CVPR 2023 相比,接收论文的数量提高 20.6%,而录用率却降低 2.2%。 这些数据表明,CVPR 2024 的热度、竞争激烈程度以及获奖论文的含金量均有所提升。

获奖论文数量,图源:php.cn

北京时间 6 月 20 日凌晨,CVPR 2024 正式公布了本届会议的最佳论文等奖项。据统计,本次共有 10 篇论文获奖,其中最佳论文 2 篇,最佳学生论文 2 篇,最佳论文提名 2 篇和最佳学生论文提名 4 篇。

BIoCLIP 获最佳学生论文,图源:CVPR2024官方

其中,「BIoCLIP: A Vision Foundation Model for the Tree of Life」被评为最佳学生论文。 对此,麻省理工学院计算机科学与人工智能实验室助理教授 Sara Beery 更是评价其作者和团队为「当之无愧」的获奖者,论文第一作者 Samuel Stevens 第一时间在平台上表示了感谢。

Sara Beery 在社交平台评价 BIoCLIP 团队当之无愧

HyperAI超神经将从数据集、模型架构、模型性能等方面,全面解读「BIoCLIP: A Vision Foundation Model for the Tree of Life」,并为大家汇总整理了一作 Sam Stevens 的其他成果。

论文下载地址:
https://arxiv.org/pdf/2311.18803

创建最大、最多样化的生物图像数据集

目前最大的机器学习生物图像数据集是 iNat21,包含 270 万张图像,覆盖 1 万个物种。尽管,与 ImageNet-1k 等通用领域数据集相比,iNat21 的分类广度有极大提升,但对于生物学而言,1 万个物种仍是凤毛麟角。国际自然保护联盟 (IUCN) 在 2022 年就报告了超过 200 万个已知物种,仅鸟类和爬行动物就分别超过 1 万个物种。

针对生物图像数据集物种类别限制的问题,研究人员构建了一个包含 1,000 万张图像的数据集 TreeOfLife-10M, 跨越 450K+ 物种,在数据集规模和物种多样性方面完成了革命性突破。

TreeOfLife-10M 中 108 个门类的树状图不同颜色代表不同的门类,方框大小代表样本的相对数量

该数据集结合了 iNaturalist、 BIOSCAN-1M 和生命百科全书 (Encyclopedia of Life, EOL) 中的生物图像。

TreeOfLife-10M 的数据来源

除了 iNat21 所覆盖的 1 万个物种类别外,研究人员从 EOL 下载了 660 万张图像,将 TreeOfLife-10M 扩展到覆盖额外的 44 万种分类群。同时,为了帮助基础模型学习昆虫的极细粒度视觉表征,研究人员还纳入了 BIOSCAN-1M,这是一个包含 100 万张实验室昆虫图像的最新数据集,覆盖 494 个不同的科、7,831 种物种分类。

TreeOfLife-10M 下载地址:
https://go.hyper.ai/Gliol

多模态模型 BioCLIP:基于 CLIP 提升泛化能力

与通用任务相比,生物学计算机视觉的标注空间 (label space) 更加丰富,不仅分类标注数量庞大,且标注在层级分类系统中相互连接,这无疑为训练高物种覆盖率、强泛化能力的基础模型带来了巨大挑战。

借助生物学数百年研究所积累的经验,研究人员认为,如果基础模型能够成功编码标注空间的结构,那么即便没有见过某个特定物种,模型就可能已经能够识别其所对应的属 (genus) 或科 (family) 并给出相应的表征,而这种层级表征 (hierarchical representation) 将有助于实现新分类群的少样本、甚至零样本学习。

基于此,研究人员选择了 OpenAI 开发的多模态模型架构 CLIP,并利用 CLIP 的多模态对比学习目标在 TREEOFLIFE-10M 上持续进行预训练。

具体而言,CLIP 对视觉编码器和文本编码器这两种单模态嵌入模型进行训练,从而最大化正对 (positive pairs) 之间的特征相似性,最小化负对 (negative pairs) 之间的特征相似性,其中正对来自训练数据,负对是 batch 中所有其他可能的配对。

BioCLIP 训练中的文本类型

此外,CLIP 的一个重要优势便是其文本编码器接受自由形式的文本,恰恰能够应对生物学领域多样化的类名格式问题。针对该研究中的文本形式,研究人员主要考虑了:

*** 分类名称 (Taxonomic name):** 标准的七级生物分类从高到低依次为界 (Kingdom)、门 (Phylum)、纲 (Class)、目 (Order)、科 (Family)、属 (Genus)、种 (Species)。对于每个物种,通过将从根到叶的所有标注连接成一个字符串来「展平 (flatten)」分类系统,这个字符串就是分类名称。

*** 学名 (Scientific name):** 由属和种组成。

*** 通用名 (Common name.):** 分类名称通常是拉丁文,而在通用的图像-文本预训练数据集中不常见。相反,诸如「黑嘴喜鹊 (black-billed magpie)」这样的通用名称更为普遍。需要注意的是,通用名称与分类群之间可能并不是一对一映射关系,一个物种可能有多个通用名称,或者同一个通用名称可能指多个物种。

在实际应用中,可能只有一种类型的标注输入,为了在推理时提高灵活性,研究人员提出了一种混合文本类型训练策略, 即在每个训练步骤中,将每个输入图像与从所有可用文本类型中随机抽取的文本配对。实验证明,这种训练策略不仅保持了分类名称的泛化优势,还在推理时提供了更多灵活性。

BioCLIP 识别过程

如上图 a 所示,两种不同植物 Onoclea sensibilis (d) 和 Onoclea hintonii (e) 的分类群或分类标签,除物种 (species) 外,完全相同。

上图 b 所示,文本编码器是一个自回归语言模型,能够自然编码 taxonomy 的分层表征 (hierarchical representations),其中的阶次表征 (order representation) Polypodiales 只能依赖于更高的阶次,从 Kingdom、Phylum 和 Class tokens 中吸收信息。这些分类标注 (taxonomic labels) 的分层表征被输入到标准的对比预训练目标中,并与图像表征 (d) 和 (e) 相匹配。

BioCLIP 和 CLIP 的预测示例

上图为 BioCLIP 和 CLIP 对鸟类 525、浮游生物、昆虫等五种的预测示例,正确标注为绿色,错误标注为红色。左侧一列为 BioCLIP 的正确预测。中间及右侧是 CLIP 错误标注但 BioCLIP 正确标注的图像。

BioCLIP 在零样本和少样本任务上表现出色

研究人员将 BioCLIP 与通用视觉模型进行了比较。结果显示 ,BioCLIP 在零样本和少样本任务中均表现出色,并且显著优于 CLIP 和 OpenCLIP, 在零样本和少样本任务中的平均绝对改善 (average absolute improvement) 分别为 17% 和 16%。内在分析进一步表明,BioCLIP 学习到了更细粒度的符合生命树的层次表示,解释了其卓越的泛化能力。

不同模型的零样本、一样本和五样本分类 top-1 准确率

具体而言,研究人员引入了一项新的评估任务「稀有物种 (RARE SPECIES)」,收集了世界自然保护联盟红色名录中的约 25K 个物种,这些物种被分类为近危、易危、濒危、极危或野外灭绝。研究人员在 EOL 数据集中,选取了至少有 30 幅图像的 400 个此类物种,然后将它们从 TreeOfLife-10M 中移除,创建了一个全新的稀有物种测试集, 每个物种有 30 幅图像。

对比结果如上图所示,BioCLIP 在零样本分类中明显优于基线 CLIP 模型以及 iNat21 训练的 CLIP 模型,尤其是在未见过的分类上(见 Rare Species 列)。

硕果累累,探索最佳 BioCLlP 背后的科研之道

「BioCLlP: A Vision Foundation Model for the Tree of Life」由美国俄亥俄州立大学、微软研究院、加州大学欧文分校、伦斯勒理工学院共同发布,论文的第一作者 Samuel Stevens 博士和通讯作者 Jiaman Wu 均来自俄亥俄州立大学。

尽管 Samuel Stevens 自谦地在其个人网页上描述自己「不是一个非常严肃对待自己的人」,但从他近几年丰硕的科研成果和不懈努力来看,他显然是一个严谨对待科研事业的人。

据了解,Samuel Stevens 从 2017 年开始,一直从事计算机方向的工作,多模态模型 BioCLlP 是他在 2023 年 12 月发布的一项研究成果,并于 2024 年 2 月被 CVPR 2024 接收。

事实上,类似 BioCLlP 等 computer vision 方向的工作只是他的研究方向之一,他的兴趣很广泛,也曾在 AI for crypto、various LLM projects 等领域展开了一系列研究。

例如,他曾参与的「MMMU:A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI」,提出了一个新基准 MMMU (大规模多任务语言理解), 作为目前业界最有影响力的大模型测评基准之一,MMMU 侧重于利用特定领域(科学、健康与医学、人文等)的知识进行高级感知和推理,要求多模态模型能够执行与专家面临的类似任务。

研究人员用其对 14 个开源 LMM 和专有 GPT-4V (ision) 进行了评估,发现即使是先进的 GPT-4V 也只达到了 56% 的准确率,这表明模型还有很大的改进空间。对此,研究人员表示,希望该基准能激励社区建立下一代多模态基础模型,以实现专家级人工通用智能。
MMMU: https://mmmu-benchmark.github.io

当然,他对科研的热情和开放态度也是他取得成功的关键要素。昨日,BioCLlP 被评为最佳学生论文的消息刚出来,Samuel Stevens 博士第一时间通过社交平台向外界表达了他的观点:「如果您想聊聊动物的计算机视觉、多模态基础模型或 AI for Science,请私信我!」

Samuel Stevens 在社交平台表达开放的态度

值得一提的是,Samuel Stevens 博士不仅在科研路上砥砺前行,亦不忘提携后进。他的个人网页上也分享着对初学者的建议:「如果你想开始机器学习和人工智能。或许可以从 Coursera 的机器学习课程和 Andrej Karpathy 的 Neural Networks : Zero to Hero 开始。这两门课程的质量都非常高,与其他免费资源相比,应该会提供很多价值。」

参考资料:
1. https://samuelstevens.me/#news

最后推荐一个活动!

扫码即可报名参与「Meet AI Compiler」技术沙龙第 5 期线下聚会↓

这篇关于CVPR最佳学生论文!1千万张图像、跨越45万+物种的超大数据集,多模态模型BioCLIP实现零样本学习的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1081805

相关文章

windos server2022里的DFS配置的实现

《windosserver2022里的DFS配置的实现》DFS是WindowsServer操作系统提供的一种功能,用于在多台服务器上集中管理共享文件夹和文件的分布式存储解决方案,本文就来介绍一下wi... 目录什么是DFS?优势:应用场景:DFS配置步骤什么是DFS?DFS指的是分布式文件系统(Distr

NFS实现多服务器文件的共享的方法步骤

《NFS实现多服务器文件的共享的方法步骤》NFS允许网络中的计算机之间共享资源,客户端可以透明地读写远端NFS服务器上的文件,本文就来介绍一下NFS实现多服务器文件的共享的方法步骤,感兴趣的可以了解一... 目录一、简介二、部署1、准备1、服务端和客户端:安装nfs-utils2、服务端:创建共享目录3、服

Java内存泄漏问题的排查、优化与最佳实践

《Java内存泄漏问题的排查、优化与最佳实践》在Java开发中,内存泄漏是一个常见且令人头疼的问题,内存泄漏指的是程序在运行过程中,已经不再使用的对象没有被及时释放,从而导致内存占用不断增加,最终... 目录引言1. 什么是内存泄漏?常见的内存泄漏情况2. 如何排查 Java 中的内存泄漏?2.1 使用 J

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

Python MySQL如何通过Binlog获取变更记录恢复数据

《PythonMySQL如何通过Binlog获取变更记录恢复数据》本文介绍了如何使用Python和pymysqlreplication库通过MySQL的二进制日志(Binlog)获取数据库的变更记录... 目录python mysql通过Binlog获取变更记录恢复数据1.安装pymysqlreplicat

Linux使用dd命令来复制和转换数据的操作方法

《Linux使用dd命令来复制和转换数据的操作方法》Linux中的dd命令是一个功能强大的数据复制和转换实用程序,它以较低级别运行,通常用于创建可启动的USB驱动器、克隆磁盘和生成随机数据等任务,本文... 目录简介功能和能力语法常用选项示例用法基础用法创建可启动www.chinasem.cn的 USB 驱动

C#使用yield关键字实现提升迭代性能与效率

《C#使用yield关键字实现提升迭代性能与效率》yield关键字在C#中简化了数据迭代的方式,实现了按需生成数据,自动维护迭代状态,本文主要来聊聊如何使用yield关键字实现提升迭代性能与效率,感兴... 目录前言传统迭代和yield迭代方式对比yield延迟加载按需获取数据yield break显式示迭

Python实现高效地读写大型文件

《Python实现高效地读写大型文件》Python如何读写的是大型文件,有没有什么方法来提高效率呢,这篇文章就来和大家聊聊如何在Python中高效地读写大型文件,需要的可以了解下... 目录一、逐行读取大型文件二、分块读取大型文件三、使用 mmap 模块进行内存映射文件操作(适用于大文件)四、使用 pand

python实现pdf转word和excel的示例代码

《python实现pdf转word和excel的示例代码》本文主要介绍了python实现pdf转word和excel的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价... 目录一、引言二、python编程1,PDF转Word2,PDF转Excel三、前端页面效果展示总结一

Python xmltodict实现简化XML数据处理

《Pythonxmltodict实现简化XML数据处理》Python社区为提供了xmltodict库,它专为简化XML与Python数据结构的转换而设计,本文主要来为大家介绍一下如何使用xmltod... 目录一、引言二、XMLtodict介绍设计理念适用场景三、功能参数与属性1、parse函数2、unpa