本文主要是介绍coca、blip、blip2在image caption中的实验效果对比,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
coca脚本
# pip install open_clip_torch transformers
import open_clip
import torch
from PIL import Imagemodel, _, transform = open_clip.create_model_and_transforms(model_name="coca_ViT-L-14",pretrained="mscoco_finetuned_laion2B-s13B-b90k"
)im = Image.open("woman_in_gym.png").convert("RGB")
im = transform(im).unsqueeze(0)with torch.no_grad(), torch.cuda.amp.autocast():generated = model.generate
这篇关于coca、blip、blip2在image caption中的实验效果对比的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!