Grounded-Segment-Anything本地部署

2023-10-11 13:50

本文主要是介绍Grounded-Segment-Anything本地部署,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Grounded-Segment-Anything本地部署

  • 1.本地部署源码
    • 1.1 克隆源码
    • 1.2 下载初始参数
  • 2. 创建虚拟环境
  • 3. 测试相关文件
    • 3.1 运行`grounding_dino_demo.py`文件
    • 3.2 运行`grounded_sam_demo.py`文件
    • 3.3 运行`grounded_sam_simple_demo.py`文件
    • 3.4 `grounded_sam_inpainting_demo.py`文件
    • 3.5 ` 运行`automatic_label_ram_demo.py`文件
    • 3.6 运行`automatic_label_demo.py`文件
    • 3.7. 批量自动标注图片
  • 5. 总结

  • 源码链接:https://github.com/IDEA-Research/Grounded-Segment-Anything
  • 介绍
    • Segment Anything Model,简称 SAM。
    • SAM 已经学会了关于物体的一般概念,可以为任何图像或视频中的任何物体生成 mask,甚至包括在训练过程中没有遇到过的物体和图像类型。
    • SAM 足够通用,可以涵盖广泛的用例,并且可以在新的图像领域即开即用,无需额外的训练

1.本地部署源码

1.1 克隆源码

  • 克隆命令
    git clone https://github.com/IDEA-Research/Grounded-Segment-Anything.git
    
  • 问题一
    • 克隆下来后发现下面的三个文件夹是空的
      在这里插入图片描述

    • 在源码链接中有这两行命令,应该是把这三个文件夹文件下载下来,但是我的报错
      在这里插入图片描述

    • 解决 :手动下载,然后放在相应的文件夹
      在这里插入图片描述

  • 问题二【手动放在相应的文件夹后,调用里面的文件路径是错的】
    • 解决:修改相关路径,运行代码将不对的路径全部改掉
    • 修改路径 【segment_anything】
      在这里插入图片描述
    • 修改路径 【GroundingDINO】
      在这里插入图片描述

1.2 下载初始参数

  • 参数链接
    • groundingdino_swint_ogc.pth
    • sam_vit_h_4b8939.pth
    • sam_hq_vit_h.pth
    • ram_swin_large_14m.pth
    • tag2text_swin_14m.pth
  • 初始参数文件存放目录:项目根目录
    在这里插入图片描述

2. 创建虚拟环境

  • 创建虚拟环境
    conda create -n env_grounded_segment_anything python==3.8.10
    
  • 进入虚拟环境
    conda activate env_grounded_segment_anything
    
  • 安装pytorch
    pip install torch==1.10.0+cu113 torchvision==0.11.0+cu113 torchaudio==0.10.0 -f https://download.pytorch.org/whl/torch_stable.html
    
  • 安装requirements.txt
    pip install -r requirements.txt 
    
  • 使用pycharm打开项目
    在这里插入图片描述
  • 选择虚拟环境
    在这里插入图片描述

3. 测试相关文件

3.1 运行grounding_dino_demo.py文件

  • gpu,将DEVICE 值改为 cpu
  • gpu,无需修改参数
  • 生成标注图片
    在这里插入图片描述

3.2 运行grounded_sam_demo.py文件

  • 添加参数,电脑没有gpudevice 参数使用默认的cpu
    --config GroundingDINO/groundingdino/config/GroundingDINO_SwinT_OGC.py  
    --grounded_checkpoint groundingdino_swint_ogc.pth  
    --sam_checkpoint sam_vit_h_4b8939.pth 
    --input_image assets/demo1.jpg  
    --output_dir "outputs"  
    --box_threshold 0.3  
    --text_threshold 0.25  
    --text_prompt "bear"  
    

在这里插入图片描述

  • 输出结果
    • 文件说明
      在这里插入图片描述
    • 图片显示
      在这里插入图片描述

3.3 运行grounded_sam_simple_demo.py文件

  • 无cuda报错
    在这里插入图片描述
  • inference.py修改device值改为cpu
    在这里插入图片描述
  • 测试demo4.jpg【无需修改代码】
    在这里插入图片描述
  • 测试demo7.jpg
    • 修改关于demo.jpg信息
      在这里插入图片描述
    • 结果
      在这里插入图片描述

3.4 grounded_sam_inpainting_demo.py文件

  • 修复图片文件

  • 添加参数

    --config
    GroundingDINO/groundingdino/config/GroundingDINO_SwinT_OGC.py
    --grounded_checkpoint
    groundingdino_swint_ogc.pth
    --sam_checkpoint
    sam_vit_h_4b8939.pth
    --input_image
    assets/inpaint_demo.jpg
    --output_dir
    "outputs"
    --box_threshold
    0.3
    --text_threshold
    0.25
    --det_prompt
    "bench"
    --inpaint_prompt
    "A sofa, high quality, detailed"
    

    在这里插入图片描述

  • 报错 【下载远程文件失败】
    在这里插入图片描述

  • 解决:手动下载

    • 下载链接:https://huggingface.co/runwayml/stable-diffusion-inpainting/tree/main
    • 将下载好的文件放在config_data文件夹中
      在这里插入图片描述
    • 修改为本地路径
      在这里插入图片描述
  • 重新运行:报错 【原因:我没有gpu】
    在这里插入图片描述

  • 解决,将cuda换为cpu
    在这里插入图片描述

  • 重新运行:报错

    • RuntimeError: "LayerNormKernelImpl" not implemented for 'Half'
      在这里插入图片描述

    • 解决方式:解决链接

    • float16改为float32
      在这里插入图片描述

  • 结果
    在这里插入图片描述

3.5 运行automatic_label_ram_demo.py`文件

  • 添加参数

    --ram_checkpoint
    ram_swin_large_14m.pth
    --grounded_checkpoint
    groundingdino_swint_ogc.pth
    --sam_checkpoint
    sam_vit_h_4b8939.pth
    --input_image
    assets/demo9.jpg
    --output_dir
    "outputs"
    --box_threshold
    0.25
    --text_threshold
    0.2
    --iou_threshold
    0.5
    
  • 结果
    在这里插入图片描述

3.6 运行automatic_label_demo.py文件

  • 自动标注文件

  • 添加参数

    --config
    GroundingDINO/groundingdino/config/GroundingDINO_SwinT_OGC.py
    --grounded_checkpoint
    groundingdino_swint_ogc.pth
    --sam_checkpoint
    sam_vit_h_4b8939.pth
    --input_image
    assets/demo9.jpg
    --output_dir
    "outputs"
    --box_threshold
    0.25
    --text_threshold
    0.2
    --iou_threshold
    0.5
    

    在这里插入图片描述

  • 报错
    在这里插入图片描述

  • 原因:下载文件失败,手动下载

    • 下载链接:https://huggingface.co/Salesforce/blip-image-captioning-large/tree/main
    • 将文件放在config_data
      在这里插入图片描述
    • 修改为本地路径
      在这里插入图片描述
  • 报错Resource punkt not found. Please use the NLTK Downloader to obtain the resources

    • 手动下载链接:http://www.nltk.org/nltk_data/
    • 下载wordnet,punkt,averaged_perceptron_tagger
    • 放到相应目录,zip解压文件都要有
      在这里插入图片描述
  • 结果
    在这里插入图片描述

3.7. 批量自动标注图片

  • 修改automatic_label_demo.py文件
  • 文件太长,其他的地方还要改
    if __name__ == "__main__":root_path=''  # 根目录images_name='images'   # 图片文件夹名images_path=os.path.join(root_path,images_name)images_outputs_path=os.path.join(root_path,'grounded_segment_anything_images')output_json = os.path.join(images_outputs_path,'json')output_orig = os.path.join(images_outputs_path,'orig')output_mask = os.path.join(images_outputs_path,'mask')output_automatic_label = os.path.join(images_outputs_path,'automatic_label')for i in [output_json,output_mask,output_orig,output_automatic_label]:os.makedirs(i, exist_ok=True)images_list=os.listdir(images_path)parser = argparse.ArgumentParser("Grounded-Segment-Anything Demo", add_help=True)parser.add_argument("--config", type=str, default='GroundingDINO/groundingdino/config/GroundingDINO_SwinT_OGC.py',help="path to config file")parser.add_argument("--grounded_checkpoint", type=str, default='groundingdino_swint_ogc.pth', help="path to checkpoint file")parser.add_argument("--sam_checkpoint", type=str, default='sam_vit_h_4b8939.pth', help="path to checkpoint file")parser.add_argument("--split", default=",", type=str, help="split for text prompt")parser.add_argument("--openai_key", type=str, help="key for chatgpt")parser.add_argument("--openai_proxy", default=None, type=str, help="proxy for chatgpt")parser.add_argument("--box_threshold", type=float, default=0.25, help="box threshold")parser.add_argument("--text_threshold", type=float, default=0.2, help="text threshold")parser.add_argument("--iou_threshold", type=float, default=0.5, help="iou threshold")parser.add_argument("--device", type=str, default="cpu", help="running on cpu only!, default=False")args = parser.parse_args()# cfgconfig_file = args.config  # change the path of the model config filegrounded_checkpoint = args.grounded_checkpoint  # change the path of the modelsam_checkpoint = args.sam_checkpoint# image_path = args.input_imagesplit = args.splitopenai_key = args.openai_keyopenai_proxy = args.openai_proxybox_threshold = args.box_thresholdtext_threshold = args.text_thresholdiou_threshold = args.iou_thresholddevice = args.deviceopenai.api_key = openai_keyif openai_proxy:openai.proxy = {"http": openai_proxy, "https": openai_proxy}# load modelmodel = load_model(config_file, grounded_checkpoint, device=device)processor = BlipProcessor.from_pretrained("config_data/blip-image-captioning-large")if device == "cuda":blip_model = BlipForConditionalGeneration.from_pretrained("config_data/blip-image-captioning-large",torch_dtype=torch.float16).to("cuda")else:blip_model = BlipForConditionalGeneration.from_pretrained("config_data/blip-image-captioning-large")for img_name in images_list:image_path=os.path.join(images_path,img_name)image_pil, image = load_image(image_path)image_pil.save(os.path.join(output_orig, img_name))args = parser.parse_args()caption = generate_caption(image_pil, device=device)text_prompt = generate_tags(caption, split=split)print(f"Caption: {caption}")print(f"Tags: {text_prompt}")# visualize raw imageimage_pil.save(os.path.join(output_orig,img_name ))# run grounding dino modelboxes_filt, scores, pred_phrases = get_grounding_output(model, image, text_prompt, box_threshold, text_threshold, device=device)# initialize SAMpredictor = SamPredictor(build_sam(checkpoint=sam_checkpoint).to(device))image = cv2.imread(image_path)image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)predictor.set_image(image)size = image_pil.sizeH, W = size[1], size[0]for i in range(boxes_filt.size(0)):boxes_filt[i] = boxes_filt[i] * torch.Tensor([W, H, W, H])boxes_filt[i][:2] -= boxes_filt[i][2:] / 2boxes_filt[i][2:] += boxes_filt[i][:2]boxes_filt = boxes_filt.cpu()# use NMS to handle overlapped boxesprint(f"Before NMS: {boxes_filt.shape[0]} boxes")nms_idx = torchvision.ops.nms(boxes_filt, scores, iou_threshold).numpy().tolist()boxes_filt = boxes_filt[nms_idx]pred_phrases = [pred_phrases[idx] for idx in nms_idx]print(f"After NMS: {boxes_filt.shape[0]} boxes")caption = check_caption(caption, pred_phrases)print(f"Revise caption with number: {caption}")transformed_boxes = predictor.transform.apply_boxes_torch(boxes_filt, image.shape[:2]).to(device)masks, _, _ = predictor.predict_torch(point_coords = None,point_labels = None,boxes = transformed_boxes.to(device),multimask_output = False,)# draw output imageplt.figure(figsize=(10, 10))plt.imshow(image)for mask in masks:show_mask(mask.cpu().numpy(), plt.gca(), random_color=True)for box, label in zip(boxes_filt, pred_phrases):show_box(box.numpy(), plt.gca(), label)plt.title(caption)plt.axis('off')plt.savefig(os.path.join(output_automatic_label,img_name),bbox_inches="tight", dpi=300, pad_inches=0.0)save_mask_data(output_mask,output_json,img_name, caption, masks, boxes_filt, pred_phrases)
    

5. 总结

  • 文件太多了,其他的不像测试了,因该都没有很大的问题
  • 文件初始化参数太大了,一个项目占了几十个G
  • 效果也不好,不想做了,摆烂

这篇关于Grounded-Segment-Anything本地部署的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/188495

相关文章

Android实现打开本地pdf文件的两种方式

《Android实现打开本地pdf文件的两种方式》在现代应用中,PDF格式因其跨平台、稳定性好、展示内容一致等特点,在Android平台上,如何高效地打开本地PDF文件,不仅关系到用户体验,也直接影响... 目录一、项目概述二、相关知识2.1 PDF文件基本概述2.2 android 文件访问与存储权限2.

Spring Boot项目部署命令java -jar的各种参数及作用详解

《SpringBoot项目部署命令java-jar的各种参数及作用详解》:本文主要介绍SpringBoot项目部署命令java-jar的各种参数及作用的相关资料,包括设置内存大小、垃圾回收... 目录前言一、基础命令结构二、常见的 Java 命令参数1. 设置内存大小2. 配置垃圾回收器3. 配置线程栈大小

python连接本地SQL server详细图文教程

《python连接本地SQLserver详细图文教程》在数据分析领域,经常需要从数据库中获取数据进行分析和处理,下面:本文主要介绍python连接本地SQLserver的相关资料,文中通过代码... 目录一.设置本地账号1.新建用户2.开启双重验证3,开启TCP/IP本地服务二js.python连接实例1.

使用Python开发一个简单的本地图片服务器

《使用Python开发一个简单的本地图片服务器》本文介绍了如何结合wxPython构建的图形用户界面GUI和Python内建的Web服务器功能,在本地网络中搭建一个私人的,即开即用的网页相册,文中的示... 目录项目目标核心技术栈代码深度解析完整代码工作流程主要功能与优势潜在改进与思考运行结果总结你是否曾经

使用Python实现快速搭建本地HTTP服务器

《使用Python实现快速搭建本地HTTP服务器》:本文主要介绍如何使用Python快速搭建本地HTTP服务器,轻松实现一键HTTP文件共享,同时结合二维码技术,让访问更简单,感兴趣的小伙伴可以了... 目录1. 概述2. 快速搭建 HTTP 文件共享服务2.1 核心思路2.2 代码实现2.3 代码解读3.

在java中如何将inputStream对象转换为File对象(不生成本地文件)

《在java中如何将inputStream对象转换为File对象(不生成本地文件)》:本文主要介绍在java中如何将inputStream对象转换为File对象(不生成本地文件),具有很好的参考价... 目录需求说明问题解决总结需求说明在后端中通过POI生成Excel文件流,将输出流(outputStre

tomcat多实例部署的项目实践

《tomcat多实例部署的项目实践》Tomcat多实例是指在一台设备上运行多个Tomcat服务,这些Tomcat相互独立,本文主要介绍了tomcat多实例部署的项目实践,具有一定的参考价值,感兴趣的可... 目录1.创建项目目录,测试文China编程件2js.创建实例的安装目录3.准备实例的配置文件4.编辑实例的

SpringBoot配置Ollama实现本地部署DeepSeek

《SpringBoot配置Ollama实现本地部署DeepSeek》本文主要介绍了在本地环境中使用Ollama配置DeepSeek模型,并在IntelliJIDEA中创建一个Sprin... 目录前言详细步骤一、本地配置DeepSeek二、SpringBoot项目调用本地DeepSeek前言随着人工智能技

通过Docker Compose部署MySQL的详细教程

《通过DockerCompose部署MySQL的详细教程》DockerCompose作为Docker官方的容器编排工具,为MySQL数据库部署带来了显著优势,下面小编就来为大家详细介绍一... 目录一、docker Compose 部署 mysql 的优势二、环境准备与基础配置2.1 项目目录结构2.2 基

CentOS 7部署主域名服务器 DNS的方法

《CentOS7部署主域名服务器DNS的方法》文章详细介绍了在CentOS7上部署主域名服务器DNS的步骤,包括安装BIND服务、配置DNS服务、添加域名区域、创建区域文件、配置反向解析、检查配置... 目录1. 安装 BIND 服务和工具2.  配置 BIND 服务3 . 添加你的域名区域配置4.创建区域