图像检索:Where to Buy It: Matching Street Clothing Photos in Online Shops

2024-02-24 05:20

本文主要是介绍图像检索:Where to Buy It: Matching Street Clothing Photos in Online Shops,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

intro: ICCV 2015 

hmepage: http://www.tamaraberg.com/street2shop/ 

paper: http://www.tamaraberg.com/papers/street2shop.pdf

paper: http://www.cv-foundation.org/openaccess/content_iccv_2015/html/Kiapour_Where_to_Buy_ICCV_2015_paper.html

这篇论文的目标就是要根据街拍图准确找出卖家图。

该论文的主要贡献有:

1. 开源了一个street2shop数据集;

2. 根据深度学习提取到的服装特征,又训练了一个计算相似度的小网络;

3. 不仅用算法检索评估测试,还组织了人类检索评估测试;


A.  数据集street2shop

总共收集了11类商品的图片,包含(bags,belts,dresses,eyewear,footwear,hats,leggings,outerwear,pants,skirts,和tops);

从25个网上零售店收集了404,683张shop photos,和20,358street photos, 39,479对street shop matches;

根据给的图片url将dresses,outerwear,tops下载下来看了看,很不理想,很多item只有一张图片,有多张图片的item,服饰搭配,角度,光线遮挡等问题也很严重,有些甚至人都不好区分。

B. 算法模型

算法的输入的street photo就是一张标记好类别和bbox的照片, 而shop photo是没有类别和bbox标注的。

一个baseline是基于shop photo的整图做检索,也就是用了ImageNet效果还不错的模型作为特征提取器,提取shop的整图特征,提取street的bbox里图的特征,然后用cosine距离计算相似度,相似度从大到小排序,得检索结果。感觉这种方式脚趾头想效果也不能好了。。。

另一个baseline是采用selective search method在shop中提取候选框,特征计算和比对同baseline 1

后面本文提出的呢,就是用三个FC层的network来代替consine相似度的计算。

训练数据的positive pairs主要就是选取street和shop指向同一商品的图片里,shop图片上使用baseline2比对结果topN的区域图提取的特征与street bbox图提取的特征组成pair,negative pairs就是street和shop指向不同款的图片

先训练了一个适用于所有类别的通用相似度计算模型,然后针对不同类别,分别finetuning出各类别的相似度计算模型。

敲黑板:作者使用了几种检索方法: 
1.全图检索:AlexNet的FC6特征,进行余弦距离计算。 
2.proposal检索,网络在售的图片没有标记框,提取100个proposal,再用余弦距离计算相似度。 
3.相似度学习 
使用三层全连接网,正负样本(匹配和不匹配的图像对),前两层全连接网友512个输出,使用ReLU激活,最后一层有两个节点,使用Softmax激活,正负样本分别是街拍图像中衣物的bbox和网售衣物的proposal,最小化cross-entropy损失: 
这里写图片描述

作者首先训练了一个广义的相似度模型,然后对每类衣物微调,得到类别独立的模型: 




C. 实验结果

算法实验结果,实在是不怎么理想,参照下图



人类检索结果,任务与算法的稍有不同,给出一张图和10个比较相似的候选,从中选出与那张图相同的。不过做同样任务的时候,人的准确度还是比算法的高很多,还有很高的提升空间。

Consider dresses,where our algorithm does relatively well, picking the correct item in the top 10 in 33.5% of trials and getting the first item correct in 15.6%. In our human experiments, people pick the correct item out of 10 choices 87% of the time for dresses, which is significantly better.



这篇关于图像检索:Where to Buy It: Matching Street Clothing Photos in Online Shops的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/741057

相关文章

音视频开发基础知识(1)——图像基本概念

像素 **像素是图像的基本单元,一个个像素就组成了图像。你可以认为像素就是图像中的一个点。**在下面这张图中,你可以看到一个个方块,这些方块就是像素。 分辨率 图像(或视频)的分辨率是指图像的大小或尺寸。我们一般用像素个数来表示图像的尺寸。比如说一张1920x1080的图像,前者1920指的是该图像的宽度方向上有1920个像素点,而后者1080指的是图像的高 度方向上有1080个像素点。

【Python机器学习】NMF——将NMF应用于人脸图像

将NMF应用于之前用过的Wild数据集中的Labeled Faces。NMF的主要参数是我们想要提取的分量个数。通常来说,这个数字要小于输入特征的个数(否则的话,将每个像素作为单独的分量就可以对数据进行解释)。 首先,观察分类个数如何影响NMF重建数据的好坏: import mglearn.plotsimport numpy as npimport matplotlib.pyplot as

AIGC-Animate Anyone阿里的图像到视频 角色合成的框架-论文解读

Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation 论文:https://arxiv.org/pdf/2311.17117 网页:https://humanaigc.github.io/animate-anyone/ MOTIVATION 角色动画的

什么是图像频率?

经常听到图像低频成份、高频成份等等,没有细想过,今天突然一想发现真的不明白是怎么回事,在知乎上发现某答案,引用如下: 首先说说图像频率的物理意义。图像可以看做是一个定义为二维平面上的信号,该信号的幅值对应于像素的灰度(对于彩色图像则是RGB三个分量),如果我们仅仅考虑图像上某一行像素,则可以将之视为一个定义在一维空间上信号,这个信号在形式上与传统的信号处理领域的时变信号是相似的。不过是一个是

【LocalAI】(13):LocalAI最新版本支持Stable diffusion 3,20亿参数图像更加细腻了,可以继续研究下

最新版本v2.17.1 https://github.com/mudler/LocalAI/releases Stable diffusion 3 You can use Stable diffusion 3 by installing the model in the gallery (stable-diffusion-3-medium) or by placing this YAML fi

matplotlib之常见图像种类

Matplotlib 是一个用于绘制图表和数据可视化的 Python 库。它支持多种不同类型的图形,以满足各种数据可视化需求。以下是一些 Matplotlib 支持的主要图形种类: 折线图(Line Plot): 用于显示数据随时间或其他连续变量的变化趋势。特点:能够显示数据的变化趋势,反映事物的变化情况。(变化)plt.plot() 函数用于创建折线图。  示例:

细粒度图像分类论文阅读笔记

细粒度图像分类论文阅读笔记 摘要Abstract1. 用于细粒度图像分类的聚合注意力模块1.1 文献摘要1.2 研究背景1.3 本文创新点1.4 计算机视觉中的注意力机制1.5 模型方法1.5.1 聚合注意力模块1.5.2 通道注意力模块通道注意力代码实现 1.5.3 空间注意力模块空间注意力代码实现 1.5.4 CBAM注意力机制CBAM注意力代码实现 1.5.5 本文模型整体架构 1.6

发表在SIGMOD 2024上的高维向量检索/向量数据库/ANNS相关论文

前言 SIGMOD 2024会议最近刚在智利圣地亚哥结束,有关高维向量检索/向量数据库/ANNS的论文主要有5篇,涉及混合查询(带属性或范围过滤的向量检索)优化、severless向量数据库优化、量化编码优化、磁盘图索引优化。此外,也有一些其它相关论文,比如FedKNN: Secure Federated k-Nearest Neighbor Search。 下面对这些论文进行一个简单汇总介绍

动手学深度学习(Pytorch版)代码实践 -计算机视觉-36图像增广

6 图片增广 import matplotlib.pyplot as pltimport numpy as npimport torch import torchvisionfrom d2l import torch as d2lfrom torch import nn from PIL import Imageimport liliPytorch as lpfrom tor

LVGL8.3动画图像(太空人)

LVGL8.3 动画图像 1. 动画图像本质 我们知道电影属于视频,而电影的本质是将一系列动作的静态图像进行快速切换而呈现出动画的形式,也就是说动画本质是一系列照片。所以 lvgl 依照这样的思想而定义了动画图像,所以在 lvgl 中动画图像类似于普通的静态图像对象。 唯一的区别是,动画图像设置了一个由多个源图像组成的数组,而不仅仅指定一个源图像。 2. 设置动画图像图片来源 不过在此之前