首次披露！拍立淘技术框架及核心算法，日均UV超千万

近期，谷歌工程师为何疯狂迷上阿里郎的鞋？一文引发关注，以“拍立淘”为代表的计算机图像技术让业内人士称赞不已。以图搜图，是通过搜索图像内容或者视觉特征，为用户提供互联网上相关图像资料检索服务的专业搜索引擎，是搜索引擎的一种细分。

移动端的以图搜图是一代又一代的图像人，搜索人的梦想。从90年代开始，学术界，工业界做了很多的努力和尝试。拍立淘从2014年首次上线之后，通过产品技术的不断打磨，已经成为淘宝每天超过千万UV的应用。在业务指标的增长的同时，沉淀下来了业界领先的图搜算法。

我们的目标不仅仅是满足用户以图搜图的好奇心，更是要让用户通过拍照，搜索到淘宝同款或者相似宝贝，简化用户的购物流程，让以图搜图发挥真正的商业价值。

拍立淘目前业务状况

拍立淘从2014年上线以来，从最初的每天几百UV到如今的每天超过千万UV。拍立淘的稳定增长标志着消费者对以图搜图电商搜索的认可。与传统的基于文字搜索的电商搜索相比，拍立淘只需要用户随手拍一张照片，省去了繁琐的文字描述，简化了用户的购物流程，大大提高了电商购物的体验。

拍立淘的入口和体验如下：

拍立淘目前覆盖几乎淘宝所有的实体类目：比如衣服，鞋，箱包，瓶饮，配饰，家具，电子，零食，美妆，水果等。

拍立淘的图像搜索和识别技术已经走出阿里集团，向集团外的公司输出，比如三星旗舰手机S8在系统层面集成了拍立淘，用于相机和相册。

位于海外的客户，也可以通过AliExpress中集成的拍照购物功能，来享受拍照购物的便捷。

拍立淘的技术框架

拍立淘存在典型的技术驱动，在过去的三年多时间，我们不断得通过技术的突破，来实验了业务的增长。

拍立淘流程主要分为离线流程和在线流程，主要步骤如下：

离线流程：主要是指拍立淘每天离线构建索引库的整个流程，涉及选品、离线抠图、离线抽取特征、构建索引等环节。执行完毕之后，每天会在规定时间完成线上图库的更新。

在线流程：主要是指用户一张query图上传之后，到最后返回结果的整个中间过程，包含在线类目识别，在线抠图，在线特征提取和在线索引查询等关键步骤。

宝贝选品

阿里集团内有海量的商品类目和图片，包含宝贝的主图、SKU、副图、晒单图和详情图等，涵盖电商领域的各个方面。如何从这些海量图片中选出用户最喜欢，最想买的宝贝是一件很有意思的工作。

我们首先会根据购物偏好和品质进行全淘图片库的过滤；由于淘宝上相同或者高度相似的宝贝太多，如果不处理的话，最后的搜索结果中就会出现大量一模一样的宝贝，用户体验很差。因此在做完过滤之后，我们增加了图片去重模块，目的是把一模一样或者高度相似的宝贝去重，优化最后的展示；最后，我们会结合运营需求，给最近一段时间做活动的宝贝打上运营标记。

类目预测

拍立淘类目是对淘宝叶子类目的一种划分，既需考虑一定的视觉相似性，又需考虑一定的语义相似性。类目体系不仅仅是个技术问题，也是个业务问题（有利于消费者认知）。目前拍立淘有14个大类，涵盖全淘所有叶子类目

抠图

因为商品的背景复杂，主体常常较小，所以为了减少大量背景干扰和多主体的影响，因此需要将搜索目标从图像中提取出来。下面两幅图反应了对于用户的query，进行主体检测和不进行主体检测的搜索结果差异。

第一幅图没有由于进行抠图，搜索结果中背景干扰比较明显，都出现了绿色的背景，而用户真正关心的主体衣服的搜索质量则很差。第二幅图进行抠图之后，搜索结果有了非常显著的提高，主体衣服的匹配程度非常高。

图像特征

拍立淘的图像特征包括深度特征和局部特征。

深度特征：基于深度学习框架学习出来的图像表示。目前深度学习在图像、语音等领域取得了重大突破，基于深度学习的图像表示在很多任务上已经完胜传统图像特征。拍立淘从立项之初就开始研究深度特征，在这方面积累了大量的经验，这也使得特征成为拍立淘核心竞争力之一，具体细节详见后续章节。

局部特征：局部特征是图像特征的局部表达，它反应的是图像具有的局部特殊性。拍立淘在常见的局部特征基础上进行改进，不仅进行维度压缩，还优化提取速度，同时保证匹配精度不下降。

检索索引

索引的流程可以分成离线和在线两部分。离线过程对商品图像特征构建索引，在线过程对用户query进行分布式的快速查询。

在线查询流程主要分为：粗召回 -> 积召回-> 欧式排序 -> 精排。

拍立淘目前的索引数据量有几十亿，如何高效的构建索引，同时保证在线查询的精度是一个非常具有挑战性的任务，拍立淘在这方面做了很多工作，详见后续章节。

排序

深度特征从高层提取信息，关注语义鸿沟；局部特征关注图像的局部信息。如果将两者有效的结合起来，相辅相成，既能保证语义上的相似性，又能保证局部细节的匹配，因此我们在索引召回之后，会再进行一次排序，将深度特征和局部特征结合在一起。我们会学习一个ranking function，给深度特征和局部特征分配不同的比重，基于最后的score对索引返回结果做二次排序。

上述是拍立淘的各个模块的介绍，下面我们会就拍立淘的三个核心技术：实拍图精度提升；超大规模的向量检索索引；移动端DL进行进一步的描述。

拍立淘核心技术

范例

实拍图的突破

非实拍图主要是指拍摄清晰，背景简单的图片，其中大部分来自淘宝宝贝的原图。对于这种图片，拍立淘的精度已经做的很高。但是对于一个以图搜图商业应用，真正的挑战来自占比用户query大量的实拍图，这类图和非实拍图差距很大，具有光照，角度，多主体等各种问题。

为了把实拍图做好，拍立淘不断突破，在各个类目上都有非常显著的提升。

1.数据“掘地三尺”

数据方面，我们利用了拍立淘log数据，晒单数据和主搜i2i数据。并构建相应的深度学习模型进行特征训练。

在拍立淘的场景，我们发现用户的点击等有效行为大多是针对于同款，因此我们对PVLOG进行挖掘，噪声过滤，形成triplet来进行特征的训练。拍立淘每天产生海量的图像数据，通过构建基于实拍图的deep pairwise ranking特征学习框架，大幅度提高了实拍图的搜索效果。

晒单图可以作为一个用户真实实拍图的近似。目前淘宝上有大量用户上传的晒单图，但晒单图中含有大量的噪声数据。我们先会通过相似度矩阵滤除那些相似度较低的噪声数据。接着我们训练一个同款分类的分类器，由此得到的特征能提高实拍图的精度。

由于同一用户在同一时间段内点击的宝贝具有一定的相似度。通过挖掘主搜的i2i点击数据，形成虚拟label进行深度学习得到的中间层表达也可以作为一种特征表示，用于相似度排序。

除了通过提高特征本身的效果来提高实拍图的精度外，提高实拍图效果的另外一个途径是利用实拍图片来扩充我们的data space，使得整个图搜系统越来越智能。通过下图所示，通过主图+晒单图+LOG图扩充data space，加以distance度量，可以使得同款率提升。

2.升级深度学习

深度学习方面，我们通过Loss函数，网络结构和特征排序框架继续进行创新和突破。

首先我们采用了deeppairwise ranking特征学习框架来学习我们的深度特征：

最大化正/负样本与query之间的距离差来保证特征的效果。

其次我们采用了属性label和虚拟label训练框架来训练精排的深度特征：

另外，在类目识别方面，为了进一步提高分类精度，我们采用层次化的类目识别：

除了拍立淘的大类目之外，还多任务训练一级类目和叶子类目。这种多任务层次化的结构可以进一步提高拍立淘类目预测的精度。

超大规模的向量检索索引

为了涵盖更多更广的数据源，我们要打造一个容纳百亿级别数据量的拍立淘，面临的挑战包括：特征抽取的提速和特征降维；和离线构建索引的提速与查询召回的保证。

特征抽取的提速和特征降维

当数据量达到百亿级别时，如果特征抽取效率不高的话，离线抽取特征的时间就会变成非常长；其次，在线引擎中硬盘和内存的存储也是一个问题。
为了解决这一问题，在保证特征精度的情况下，通过对深度学习网络框架的调整，我们将拍立淘的特征的维度，压缩到了原来的1/4，并通过卷积加速、并行计算等策略实现了一倍的提速。