深度学习模型keras第二十三讲:在KerasCV中使用SAM进行任何图像分割

本文主要是介绍深度学习模型keras第二十三讲:在KerasCV中使用SAM进行任何图像分割,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1 SAM概念

###1.1 SAM定义

Segment Anything Model(SAM)是一种基于深度学习的图像分割模型,其主要特点包括:

  • 高质量的图像分割:SAM可以从输入提示(如点、框、文字等)生成高质量的对象掩模,实现对图像中对象的精确分割。
  • 零次学习性能:SAM已经在一个包含1100万张图像和110亿个掩模的数据集上进行了训练,具有强大的零次学习性能。这意味着它可以迁移到新的图像分布和任务中,即使在训练阶段没有见过的物体类别也能够进行分割。
  • 网络结构:SAM采用了类似于U-Net的编码器-解码器结构。编码器部分由多个卷积层和池化层组成,用于提取图像特征;解码器部分则由多个反卷积层和上采样层组成,用于将特征图恢复到原始图像大小,并生成分割结果。
  • 通用性:SAM足够通用,可以涵盖广泛的用例,具有强大的零样本迁移能力。它已经学会了关于物体的一般概念,可以为任何图像或视频中的任何物体生成掩码,甚至包括在训练过程中没有遇到过的物体和图像类型。
  • 交互性和灵活性:SAM采用了可提示的方法,可以根据不同的数据进行训练,并且可以适应特定的任务。它支持灵活的提示,需要分摊实时计算掩码以允许交互使用,并且必须具有模糊性意识。
  • 强大的泛化性:SAM在边缘检测、物体检测、显著物体识别、工业异常检测等下游任务上表现出很强的泛化性。

总的来说,Segment Anything Model(SAM)是一种强大且灵活的图像分割模型,可以在广泛的应用场景中实现高质量的图像分割。它的出现将大大推动计算机视觉领域的发展,为自动驾驶、医学图像分析、卫星遥感图像分析等领域提供更准确、更高效的解决方案。

1.2 SAM的kerasCV实现

Segment Anything Model(SAM)通过输入如点或框等提示,产生高质量的对象掩码,并且它可以用于生成图像中所有对象的掩码。该模型在包含1100万张图像和110亿个掩码的数据集上进行了训练,并在各种分割任务上表现出强大的零次学习性能。

在本指南中,我们将展示如何使用KerasCV实现Segment Anything Model,并展示TensorFlow和JAX在性能提升方面的强大功能。

首先,让我们为我们的演示获取所有依赖项和图像。

!pip install -Uq keras-cv
!pip install -Uq keras
!wget -q https://raw.githubusercontent.com/facebookresearch/segment-anything/main/notebooks/images/truck.jpg

1.3 使用准备

import osos.environ["KERAS_BACKEND"] = "jax"import timeit
import numpy as np
import matplotlib.pyplot as plt
import keras
from keras import ops
import keras_cv

2 使用SAM

2.1定义辅助函数

让我们定义一些辅助函数,用于可视化图像、提示以及分割结果。

def show_mask(mask, ax, random_color=False):if random_color:color = np.concatenate([np.random.random(3), np.array([0.6])], axis=0)else:color = np.array([30 / 255, 144 / 255, 255 / 255, 0.6])h, w = mask.shape[-2:]mask_image = mask.reshape(h, w, 1) * color.reshape(1, 1, -1)ax.imshow(mask_image)def show_points(coords, labels, ax, marker_size=375):pos_points = coords[labels == 1]neg_points = coords[labels == 0]ax.scatter(pos_points[:, 0],pos_points[:, 1],color="green",marker="*",s=marker_size,edgecolor="white",linewidth=1.25,)ax.scatter(neg_points[:, 0],neg_points[:, 1],color="red",marker="*",s=marker_size,edgecolor="white",linewidth=1.25,)def show_box(box, ax):box = box.reshape(-1)x0, y0 = box[0], box[1]w, h = box[2] - box[0], box[3] - box[1]ax.add_patch(plt.Rectangle((x0, y0), w, h, edgecolor="green", facecolor=(0, 0, 0, 0), lw=2))def inference_resizing(image, pad=True):# Compute Preprocess Shapeimage = ops.cast(image, dtype="float32")old_h, old_w = image.shape[0], image.shape[1]scale = 1024 * 1.0 / max(old_h, old_w)new_h = old_h * scalenew_w = old_w * scalepreprocess_shape = int(new_h + 0.5), int(new_w + 0.5)# Resize the imageimage = ops.image.resize(image[None, ...], preprocess_shape)[0]# Pad the shorter sideif pad:pixel_mean = ops.array([123.675, 116.28, 103.53])pixel_std = ops.array([58.395, 57.12, 57.375])image = (image - pixel_mean) / pixel_stdh, w = image.shape[0], image.shape[1]pad_h = 1024 - hpad_w = 1024 - wimage = ops.pad(image, [(0, pad_h), (0, pad_w), (0, 0)])# KerasCV now rescales the images and normalizes them.# Just unnormalize such that when KerasCV normalizes them# again, the padded values map to 0.image = image * pixel_std + pixel_meanreturn image

2.2获取预训练的SAM模型

我们可以使用KerasCV的from_preset工厂方法来初始化一个训练好的SAM模型。在这里,我们使用在SA-1B数据集上训练的大型ViT主干网络(sam_huge_sa1b)来获取高质量的分割掩码。程序员也可以选择使用sam_large_sa1bsam_base_sa1b以获取更好的性能(但可能会降低分割掩码的质量)。

model = keras_cv.models.SegmentAnythingModel.from_preset("sam_huge_sa1b")

2.3理解提示

Segment Anything 允许使用点、框和掩码对图像进行提示:

点提示是所有提示中最基本的:模型尝试根据图像上的一个点来猜测对象。这个点可以是前景点(即所需的分割掩码中包含该点)或背景点(即该点位于所需掩码之外)。

另一种提示模型的方式是使用框。给定一个边界框,模型尝试分割其中包含的对象。

最后,模型也可以使用掩码本身进行提示。例如,这可以用于细化先前预测或已知的分割掩码的边界。

使该模型极其强大的是能够组合上述提示。点、框和掩码提示可以以多种方式组合,以获得最佳结果。通过组合不同的提示,用户可以更准确地指定他们想要分割的对象,从而优化模型的输出。

在KerasCV中将这些提示传递给Segment Anything模型时的语义。SAM模型的输入是一个字典,其键包括:

"images": 要分割的图像批次。必须具有形状 (B, 1024, 1024, 3),其中B是批次大小。

"points": 点提示的批次。每个点都是图像左上角开始的(x, y)坐标。换句话说,每个点都是形式为(r, c)的,其中r和c是图像中像素的行和列。必须具有形状 (B, N, 2),其中N是每个图像中点的数量。

"labels": 给定点的标签批次。1代表前景点,0代表背景点。必须具有形状 (B, N),与点提示相对应。

"boxes": 框的批次。请注意,模型每次仅接受一个框。因此,预期的形状是 (B, 1, 2, 2)。每个框都是两个点的集合:框的左上角和右下角。这里的点遵循与点提示相同的语义。这里的第二个维度中的1表示存在框提示。如果缺少框提示,则必须传递形状为 (B, 0, 2, 2) 的占位符输入。

"masks": 掩码的批次。与框提示一样,每个图像只允许一个掩码提示。如果存在掩码提示,则输入掩码的形状必须为 (B, 1, 256, 256, 1);如果缺少掩码提示,则形状为 (B, 0, 256, 256, 1)。

占位符提示仅在直接调用模型(即 model(...))时需要。当调用 predict 方法时,可以从输入字典中省略缺失的提示。这允许模型在缺少某些提示时仍然运行,并仅根据提供的提示进行预测。

2.3.1点提示

首先,让我们使用点提示对图像进行分割。我们加载图像并将其调整为预训练的SAM模型期望的图像大小(1024, 1024)。

# Load our image
image = np.array(keras.utils.load_img("truck.jpg"))
image = inference_resizing(image)plt.figure(figsize=(10, 10))
plt.imshow(ops.convert_to_numpy(image) / 255.0)
plt.axis("on")
plt.show()

在这里插入图片描述
接下来,我们将定义我们想要分割的对象上的点。让我们尝试在坐标 (284, 213) 处分割卡车的窗户。

为了做到这一点,我们需要准备输入到Segment Anything模型的数据,包括图像、点提示以及点的标签(如果模型需要)。

# Define the input point prompt
input_point = np.array([[284, 213.5]])
input_label = np.array([1])plt.figure(figsize=(10, 10))
plt.imshow(ops.convert_to_numpy(image) / 255.0)
show_points(input_point, input_label, plt.gca())
plt.axis("on")
plt.show()

在这里插入图片描述
现在让我们调用模型的predict方法来获取分割掩码。

注意:我们不直接调用模型(即model(…)),因为这样做需要占位符提示。predict方法会自动处理缺失的提示,所以我们选择调用它。另外,如果没有提供框提示,点提示和标签需要分别用零点提示和-1标签提示来填充。下面的代码块演示了这是如何工作的。

outputs = model.predict({"images": image[np.newaxis, ...],"points": np.concatenate([input_point[np.newaxis, ...], np.zeros((1, 1, 2))], axis=1),"labels": np.concatenate([input_label[np.newaxis, ...], np.full((1, 1), fill_value=-1)], axis=1),}
)

SegmentAnythingModel.predict 方法返回两个输出。首先是 logits(分割掩码),形状为 (1, 4, 256, 256),另一个是每个预测掩码的 IoU 置信度分数(形状为 (1, 4))。预训练的 SAM 模型会预测四个掩码:第一个是模型根据给定的提示能够产生的最佳掩码,而其他三个是备用掩码,可以在最佳预测不包含所需对象的情况下使用。用户可以选择他们喜欢的任何掩码。

以下代码实现可视化模型返回的掩码。

# Resize the mask to our image shape i.e. (1024, 1024)
mask = inference_resizing(outputs["masks"][0][0][..., None], pad=False)[..., 0]
# Convert the logits to a numpy array
# and convert the logits to a boolean mask
mask = ops.convert_to_numpy(mask) > 0.0
iou_score = ops.convert_to_numpy(outputs["iou_pred"][0][0])plt.figure(figsize=(10, 10))
plt.imshow(ops.convert_to_numpy(image) / 255.0)
show_mask(mask, plt.gca())
show_points(input_point, input_label, plt.gca())
plt.title(f"IoU Score: {iou_score:.3f}", fontsize=18)
plt.axis("off")
plt.show()

在这里插入图片描述
正如预期的那样,模型返回了卡车车窗的一个分割掩码。但是,我们的点提示也可能意味着一系列其他的东西。例如,另一个可能包含我们点的掩码只是车窗的右侧或整个卡车。

让我们也可视化模型预测的其他掩码。

fig, ax = plt.subplots(1, 3, figsize=(20, 60))
masks, scores = outputs["masks"][0][1:], outputs["iou_pred"][0][1:]
for i, (mask, score) in enumerate(zip(masks, scores)):mask = inference_resizing(mask[..., None], pad=False)[..., 0]mask, score = map(ops.convert_to_numpy, (mask, score))mask = 1 * (mask > 0.0)ax[i].imshow(ops.convert_to_numpy(image) / 255.0)show_mask(mask, ax[i])show_points(input_point, input_label, ax[i])ax[i].set_title(f"Mask {i+1}, Score: {score:.3f}", fontsize=12)ax[i].axis("off")
plt.show()

在这里插入图片描述

2.3.2边界框提示

现在,让我们看看如何使用边界框来提示模型。边界框由两个点指定,即边界框的左上角和右下角的坐标,以xyxy格式表示。让我们使用卡车左前轮胎周围的边界框来提示模型。

# Let's specify the box
input_box = np.array([[240, 340], [400, 500]])outputs = model.predict({"images": image[np.newaxis, ...], "boxes": input_box[np.newaxis, np.newaxis, ...]}
)
mask = inference_resizing(outputs["masks"][0][0][..., None], pad=False)[..., 0]
mask = ops.convert_to_numpy(mask) > 0.0plt.figure(figsize=(10, 10))
plt.imshow(ops.convert_to_numpy(image) / 255.0)
show_mask(mask, plt.gca())
show_box(input_box, plt.gca())
plt.axis("off")
plt.show()

在这里插入图片描述

2.3.3组合提示

为了发挥模型的真正潜力,让我们将边界框和点提示结合起来,看看模型会如何表现。

# Let's specify the box
input_box = np.array([[240, 340], [400, 500]])
# Let's specify the point and mark it background
input_point = np.array([[325, 425]])
input_label = np.array([0])outputs = model.predict({"images": image[np.newaxis, ...],"points": input_point[np.newaxis, ...],"labels": input_label[np.newaxis, ...],"boxes": input_box[np.newaxis, np.newaxis, ...],}
)
mask = inference_resizing(outputs["masks"][0][0][..., None], pad=False)[..., 0]
mask = ops.convert_to_numpy(mask) > 0.0plt.figure(figsize=(10, 10))
plt.imshow(ops.convert_to_numpy(image) / 255.0)
show_mask(mask, plt.gca())
show_box(input_box, plt.gca())
show_points(input_point, input_label, plt.gca())
plt.axis("off")
plt.show()

在这里插入图片描述

2.3.4文本提示

最后,让我们看看如何与 KerasCV 的 SegmentAnythingModel 一起使用文本提示。

对于这个演示,我们将使用官方的 Grounding DINO 模型。Grounding DINO 是一个模型,它接受(图像,文本)对作为输入,并在图像中生成由文本描述的对象周围的边界框。你可以参考相关的论文以获取更多关于模型实现的详细信息。

对于演示的这一部分,我们需要从源代码安装 groundingdino 包:

首先,你需要克隆 groundingdino 的仓库,然后按照其官方文档中的说明进行安装。这通常涉及安装依赖项,并在克隆的目录中运行适当的安装命令(可能是 pip install .setup.py 脚本)。

请注意,由于 groundingdino 是一个独立的项目,并不直接包含在 KerasCV 中,所以你需要按照 groundingdino 的指南来安装它。

一旦你安装了 groundingdino,你就可以结合使用 KerasCV 的 SegmentAnythingModel 和 groundingdino 生成的边界框来进一步细化或验证你的分割结果。例如,你可以使用 groundingdino 生成的边界框作为点或边界框提示,然后让 SegmentAnythingModel 在该区域内进行更精细的分割。

准备groundingdino

pip install -U git+https://github.com/IDEA-Research/GroundingDINO.git
!wget -q https://github.com/IDEA-Research/GroundingDINO/releases/download/v0.1.0-alpha/groundingdino_swint_ogc.pth
!wget -q https://raw.githubusercontent.com/IDEA-Research/GroundingDINO/v0.1.0-alpha2/groundingdino/config/GroundingDINO_SwinT_OGC.py
from groundingdino.util.inference import Model as GroundingDINOCONFIG_PATH = "GroundingDINO_SwinT_OGC.py"
WEIGHTS_PATH = "groundingdino_swint_ogc.pth"grounding_dino = GroundingDINO(CONFIG_PATH, WEIGHTS_PATH)

加载照片

filepath = keras.utils.get_file(origin="https://storage.googleapis.com/keras-cv/test-images/mountain-dog.jpeg"
)
image = np.array(keras.utils.load_img(filepath))
image = ops.convert_to_numpy(inference_resizing(image))plt.figure(figsize=(10, 10))
plt.imshow(image / 255.0)
plt.axis("on")
plt.show()

在这里插入图片描述
我们首先使用 Grounding DINO 模型预测我们想要分割的对象的边界框。然后,我们使用这个边界框来提示 SAM 模型,以获得分割掩码。

让我们尝试分割出狗的项圈。改变下面的图像和文本,以使用你的图像中的文本来分割任何你想要的东西!

# Let's predict the bounding box for the harness of the dog
boxes = grounding_dino.predict_with_caption(image.astype(np.uint8), "harness")
boxes = np.array(boxes[0].xyxy)outputs = model.predict({"images": np.repeat(image[np.newaxis, ...], boxes.shape[0], axis=0),"boxes": boxes.reshape(-1, 1, 2, 2),},batch_size=1,
)

就是这样!我们结合使用 Grounding DINO + SAM,根据文本提示得到了一个分割掩码!这是一种非常强大的技术,可以组合不同的模型来扩展应用!

然后可视化结果。

plt.figure(figsize=(10, 10))
plt.imshow(image / 255.0)for mask in outputs["masks"]:mask = inference_resizing(mask[0][..., None], pad=False)[..., 0]mask = ops.convert_to_numpy(mask) > 0.0show_mask(mask, plt.gca())show_box(boxes, plt.gca())plt.axis("off")
plt.show()

在这里插入图片描述

2.4优化SAM

你可以使用 mixed_float16bfloat16 数据类型策略来在相对较低精度损失的情况下,获得巨大的速度提升和内存优化。

# Load our image
image = np.array(keras.utils.load_img("truck.jpg"))
image = inference_resizing(image)# Specify the prompt
input_box = np.array([[240, 340], [400, 500]])# Let's first see how fast the model is with float32 dtype
time_taken = timeit.repeat('model.predict({"images": image[np.newaxis, ...], "boxes": input_box[np.newaxis, np.newaxis, ...]}, verbose=False)',repeat=3,number=3,globals=globals(),
)
print(f"Time taken with float32 dtype: {min(time_taken) / 3:.10f}s")# Set the dtype policy in Keras
keras.mixed_precision.set_global_policy("mixed_float16")model = keras_cv.models.SegmentAnythingModel.from_preset("sam_huge_sa1b")time_taken = timeit.repeat('model.predict({"images": image[np.newaxis, ...], "boxes": input_box[np.newaxis, np.newaxis, ...]}, verbose=False)',repeat=3,number=3,globals=globals(),
)
print(f"Time taken with float16 dtype: {min(time_taken) / 3:.10f}s")

3 总结

前面的讨论主要涵盖了如何使用不同的提示方法(包括点、边界框和文本)来引导图像分割模型(如SegmentAnythingModel,简称SAM)进行更精确的分割。此外,还提到了如何通过结合不同的模型(如Grounding DINO与SAM)来扩展图像分割应用的可能性。最后,讨论了如何通过使用mixed_float16bfloat16数据类型策略来优化SAM,以在几乎不损失精度的同时实现速度和内存的显著提升。

  • 多种提示方法:通过使用点、边界框和文本等不同的提示方法,可以有效地引导SAM模型进行更准确的图像分割。

  • 模型组合:通过将Grounding DINO等模型与SAM结合使用,可以扩展图像分割应用的范围,提高分割的准确性和效率。

  • 优化策略:使用mixed_float16bfloat16数据类型策略对SAM进行优化,可以在保持模型性能的同时,显著提升模型的运行速度和内存使用效率。这对于处理大规模数据集或在资源受限的环境下运行模型尤为重要。

这些讨论不仅展示了图像分割技术的多样性和灵活性,还强调了在实际应用中优化模型性能的重要性。通过结合不同的模型和优化策略,我们可以开发出更加高效、准确的图像分割解决方案,满足各种应用场景的需求。

KerasCV 的 SegmentAnythingModel 支持多种应用,并借助 Keras 3 能够在 TensorFlow、JAX 和 PyTorch 上运行该模型!借助 JAX 和 TensorFlow 中的 XLA 加速,该模型的运行速度比原始实现快数倍。此外,通过 Keras 的混合精度支持,只需一行代码即可优化内存使用和计算时间!

对于更高级的用法,请查看自动掩码生成器(Automatic Mask Generator)的演示。这个演示展示了如何利用 SegmentAnythingModel 和其他技术来自动生成高质量的图像分割掩码,从而进一步扩展图像分割的应用领域。无论是进行对象检测、图像分析还是其他复杂的视觉任务,自动掩码生成器都能提供强大的支持,帮助开发者更高效地实现他们的目标。

这篇关于深度学习模型keras第二十三讲:在KerasCV中使用SAM进行任何图像分割的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/996445

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

Makefile简明使用教程

文章目录 规则makefile文件的基本语法:加在命令前的特殊符号:.PHONY伪目标: Makefilev1 直观写法v2 加上中间过程v3 伪目标v4 变量 make 选项-f-n-C Make 是一种流行的构建工具,常用于将源代码转换成可执行文件或者其他形式的输出文件(如库文件、文档等)。Make 可以自动化地执行编译、链接等一系列操作。 规则 makefile文件

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;