读《Shape-Guided: Shape-Guided Dual-Memory Learning for 3D Anomaly Detection》

2024-02-28 14:12

本文主要是介绍读《Shape-Guided: Shape-Guided Dual-Memory Learning for 3D Anomaly Detection》,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Chu Y M, Chieh L, Hsieh T I, et al. Shape-Guided Dual-Memory Learning for 3D Anomaly Detection[J]. 2023.(为毛paperwithcode上面曾经的榜一引用却只有1)

摘要

专家学习
无监督
第一个专家:局部几何,距离建模
第二个专家:2DRGB,局部颜色外观

引言

虽然在大多数情况下,颜色信息通常足以定位异常,但也已经表明,当充分使用3D几何信息时,有利于实现更好的性能(Horwitz&Hoshen,2022)

(关于PRO这个指标,我的理解是相比起交并比,PRO是直接计算预测比上真实,作为重叠率,然后类似auc那样计算各个阈值下的情况得到曲线再计算面积)

方法

根据相关工作中的观点,重点提取点云中的旋转不变特征隐式表示,通过符号距离函数对找到粒度的 3D 局部结构进行建模
以及颜色外观和几何坐标的双专家聚合

3D

重点是局部几何来考察3D信息,一是因为异常只在局部,二是因为局部点云信息可扩展(?)

用PointNet (Qi et al., 2017) 和神经隐函数 (NIF) (Ma et al., 2022),用于点云应用以探索 3D 形状信息。具体来说,我们首先将一个完整的点云划分为3D块并进行局部表示学习。对于每个生成的补丁,我们对 500 个点进行采样并应用 PointNet 来获得其特征向量(这和之前研究3d数据的体素方法有啥区别)

区别于传统的3D数据体素化方法,这种做法不是将3D数据转换为固定的网格结构,而是直接在点云上操作,保持了数据的原始形式和丰富的几何细节。体素化通常涉及将连续的几何空间离散化为固定分辨率的网格,这可能会导致几何信息的损失。而PointNet和NIF允许从原始点云直接学习,可以更好地捕捉细节和局部结构,这对于异常检测特别重要,因为异常通常是通过细微的局部变化来识别的。(类似图神经网络吗)

2D

在这里插入图片描述

(我的理解就是拿点云中“拓扑化的体素”单元与2d图像中的像素patch块做特征对齐,然后类似一种双模态的融合)

(听说这个memory bank最近在异常检测等领域很火,但我的理解这不就是一个空间换时间的内存特征数据库嘛,随时提供正常特征作为模板来检索比对。而且还和模型一起保存下来?融入作为模型的一部分?不然推理时怎么比对嘛,那么这样的话感觉领域针对性好强,也太不够通用了吧)

实验

点云的分块甚至是预处理之间的,PointNet和NIF模型这两个冻结的玩意也是这里用patch训练的,所以有选型实验(但是这就有点那啥)

感觉有点怪,怪不得引用量不高?赶紧再看看代码

这篇关于读《Shape-Guided: Shape-Guided Dual-Memory Learning for 3D Anomaly Detection》的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/755735

相关文章

轻量级在线服装3D定制引擎Myway简介

我写的面向web元宇宙轻量级系列引擎中的另外一个,在线3D定制引擎Myway 3D。 用于在线商品定制,比如个性化服装的定制、日常用品(如杯子)、家装(被套)等物品的在线定制。 特性列表: 可更换衣服款式,按需定制更换模型可实时更改材质颜色可实时添加文本,并可实时修改大小、颜色和角度,支持自定义字体可实时添加艺术图标,并可实时修改大小、颜色和角度,支持翻转、各种对齐可更改衣服图案,按需求定制

Deep Learning复习笔记0

Key Concept: Embedding: learned dense, continuous, low-dimensional representations of object 【将难以表示的对象(如图片,文本等)用连续的低维度的方式表示】 RNN: Recurrent Neural Network -> for processing sequential data (time se

POLYGON Horror Carnival - Low Poly 3D Art by Synty

465 个独特的预设模型 一个正在运行的摩天轮和旋转木马 包括10个示例脚本,让嘉年华栩栩如生 ◼ 描述◼ 欢迎来到恐怖嘉年华。这个地方曾经有诱人的音乐,现在却有着令人不安的旋律,暗示着其中令人不安的惊喜。 这场险恶的盛会的真正核心在于演示场景。它使用3D低多边形资源构建,具有来自不祥的狂欢帐篷、摊位、摩天轮、旋转木马等游戏开发资源。它是疯狂人物与毫无戒心的寻求刺激者玩捉迷藏游戏的完美狩猎场。

自动驾驶---Perception之Lidar点云3D检测

1 背景         Lidar点云技术的出现是基于摄影测量技术的发展、计算机及高新技术的推动以及全球定位系统和惯性导航系统的发展,使得通过激光束获取高精度的三维数据成为可能。随着技术的不断进步和应用领域的拓展,Lidar点云技术将在测绘、遥感、环境监测、机器人等领域发挥越来越重要的作用。         目前全球范围内纯视觉方案的车企主要包括特斯拉和集越,在达到同等性能的前提下,纯视觉方

3D模型相关生成

3D模型相关生成 1. DreamFusion Model DreamFusion Model 是一种将文本描述转化为三维模型的技术。你可以想象它是一个“魔法翻译器”,你告诉它一个场景或物体的描述,比如“一个飞翔的龙”,它就能生成一个相应的 3D 模型。 原理: 文本到图像生成:DreamFusion 首先将文本描述转化为一系列可能的 2D 图像。这部分利用了预训练的扩散模型(如 DALL

初学WebGL,使用Three.js开发第一个3d场景示例

使用Three.js 开发3d场景   在图书馆偶然撞见《Three.js开发指南》一书,便试着捣鼓一翻,现将第一个示例的部分代码、注解和相关方法的API记录在此。因为此书发行时是Three.js r69版本,所以当前部分代码有所修改,且所有方法和参数以官方最新版本Three.js r90为准。 <!doctype html><html lang="en"><head><meta char

体验了一下AI生产3D模型有感

我的实验路子是想试试能不能帮我建一下实物模型 SO 我选择了一个成都环球中心的网图 但是生成的结果掺不忍睹,但是看demo来看,似乎如果你能给出一张干净的提示图片,他还是能做出一些东西的 这里我延申的思考是这个物体他如果没看过背面,他怎么猜? 他产出的物品为啥都是一张图的,我还是不太理解 但是如果多张图片,其实又和一个多图3D重建的能力似乎重复了 或者我感觉这个功能需求两张图片 正上面45

GIM: Learning Generalizable Image Matcher From Internet Videos

【引用格式】:Shen X, Yin W, Müller M, et al. GIM: Learning Generalizable Image Matcher From Internet Videos[C]//The Twelfth International Conference on Learning Representations. 2023. 【网址】:https://arxiv.or

转:oracle数据库里dual表是什么表?

这几天一直在研究oracle,常常会用到dual这个系统表,dual表到底是一个什么表?带着疑问google了一下,现在总结一下: DUAL是Oracle与数据字典一起自动创建的一个表,它只有一列:DUMMY,其数据类型为:VARCHAR2(1)。DUAL中只有一行数据:'X'。DUAL属于SYS模式,但所有用户都可以使用DUAL名称访问它。用SELECT计算常量表达式、伪列等值时常用该表,因为

一些3D数据集的简单介绍

一、Objaverse 1.0 Objaverse 1.0: a large dataset of objects with 800K+ (and growing) 3D models with descriptive captions, tags and animations. Assets not only belong to varied categories like animals,