用50张图训练,就能识别高仿山寨货!阿里安全图灵实验室获ECCV 2020挑战赛冠军...

本文主要是介绍用50张图训练,就能识别高仿山寨货!阿里安全图灵实验室获ECCV 2020挑战赛冠军...,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

贾浩楠 发自 凹非寺
量子位 报道 | 公众号 QbitAI

阿里AI最近拿到了一个“世界第一”:计算机视觉领域顶会ECCV 2020 VIPriors挑战赛分类赛道冠军。

仅用50张图片训练,然后识别特定类别的物体,阿里安全团队的算法击败了所有参赛对手。

阿里的高效分类AI模型,可以解决戴口罩的人脸识别问题;还可以打假,识别零售市场的高仿山寨货。

训练数据50张图,堪称最难分类算法挑战

ECCV 2020 VIPriors挑战赛最困难的一点,是1000个数据类别中,每个类别仅有50张图片作为训练数据

参赛者的模型,必须能在这种训练数据极少的情况下,实现对于目标高精度识别分类。

这样的难度,对于传统的AI模型来讲,几乎是不可能的任务。因为它们普遍需要海量带标签训练数据作为基石,才能保证AI模型的效果。

但是数据的收集和标注需要昂贵的人力成本,需要从不同的角度、光照条件和位置拍摄、收集几千甚至上万张图片并进行标注。

根据招聘平台信息,北京地区,数据标注师的月薪普遍在5000-8000,有数据采集技能的标注师月薪往往超过10000。而数据标注师的培训讲解岗,工资则超过2万。

ECCV 2020 VIPriors挑战赛的初衷,就是鼓励探索能够高效学习的AI神经网络,降低神经网络训练过程中的人力标注成本和计算资源消耗,使用极少的训练数据,一块GPU也可以完成

在分类赛道上,比赛数据基于ImageNet抽取,1000个类别,每个类别仅使用50张图像,训练集共5w张图片,规模仅为Imagenet的1/26。

比赛规定模型只能train from scratch,不能使用额外的训练数据,不能使用预训练模型,不能使用迁移学习,排名以测试集上的Top-1 Accuracy为准。

戴口罩识别+AI零售打假

在比赛中,面对50张训练图片的苛刻要求,阿里安全图灵实验室的智能算法团队从三个技术方向进行了突破:

利用随机抽取的两张训练图像,使用数据增强并进行拼接,最大程度丰富训练样本资源;

设计独特的神经网络结构,加入显著性特征模块挖掘样本的特点,提升分类性能;

利用分层语义结构,让AI模型更好地挖掘数据,实现更好的学习效果。

这三点创新方法,同时与自监督有效结合,在学习更好的数据表征基础上,指导模型高效学习,获得更好的识别能力。

获得了冠军,这项高效AI方案有什么实际应用呢?

阿里安全图灵实验室资深算法专家薛晖介绍,疫情期间,突发口罩佩戴问题使得大量人脸门禁失效,很多小区需要摘下口罩刷脸,带来不必要的健康风险。

而高效AI分类技术的应用大大降低了模型初始化的数据需求量,帮助快速训练好模型,解决了戴口罩的人脸识别问题。

此外,这项AI技术还能用于打假,识别山寨仿冒商品,并且已经投入使用。

对于零售场景,无论是线上还是线下,对于刚刚上新的某种产品,往往是样本数量较少,预训练任务和目标任务存在差异,预训练模型可能损害目标任务的准确率。而高效AI方案恰恰能够解决上述问题。

以某知名品牌运动鞋上新为例,一段时间内仅能获得该产品不同的配色以及商品几个不同角度的图片。

在仅有少量商品展示图的情况下,通过高效AI方案,在新产品问世的极短时间内就能实现新款商品识别能力的覆盖,降低新产品被山寨和假冒的风险

对于在网上购物的你我来说,这项技术使消费者大大降低了碰到真假难辨的高仿货几率。

不用消费者自己动手部署算法去识别商品,阿里安全的高效AI方案在平台端部署,在商品陈列阶段就尽量保证真品,避免出现鱼龙混杂的情况。


除了零售打假,在其他识别类别多、每个类别样本数量很少的场景,比如知识产权商标识别通用商品识别动植物保护等等,阿里的高效AI方案都有用武之地。

目前高效AI方案对内已应用到了阿里多个业务场景,如淘宝视频、淘宝直播、优酷等平台的知识产权保护,为数字基建的安全建设提供样本参考,对外则通过绿网直接服务大中小企业。

阿里安全图灵实验室

阿里安全图灵实验室是阿里巴巴从事安全领域机器学习研发的顶级团队,专注于 CV、NLP 及 ML 领域,团队所研发的 AI 技术被广泛用于阿里巴巴经济体的全球业务网络安全、数据安全、知识产权、新零售安全以及风控反作弊等业务场景。

今年分类赛道共有来自全球的56位选手参与,最终,阿阿里安全的高效AI分类技术超越三星、同济大学等国内外多支队伍的同类技术,勇夺冠军。

“A visual inductive priors framework for data-efficient image classification”也已经被ECCV 2020 Workshop VIPriors接收。

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

每天5分钟,抓住行业发展机遇

如何关注、学习、用好人工智能? 

每个工作日,量子位AI内参精选全球科技和研究最新动态,汇总新技术、新产品和新应用,梳理当日最热行业趋势和政策,搜索有价值的论文、教程、研究等。

同时,AI内参群为大家提供了交流和分享的平台,更好地满足大家获取AI资讯、学习AI技术的需求。扫码即可订阅:

加入AI社群,与优秀的人交流

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

这篇关于用50张图训练,就能识别高仿山寨货!阿里安全图灵实验室获ECCV 2020挑战赛冠军...的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/232508

相关文章

使用PyTorch实现手写数字识别功能

《使用PyTorch实现手写数字识别功能》在人工智能的世界里,计算机视觉是最具魅力的领域之一,通过PyTorch这一强大的深度学习框架,我们将在经典的MNIST数据集上,见证一个神经网络从零开始学会识... 目录当计算机学会“看”数字搭建开发环境MNIST数据集解析1. 认识手写数字数据库2. 数据预处理的

Pytorch微调BERT实现命名实体识别

《Pytorch微调BERT实现命名实体识别》命名实体识别(NER)是自然语言处理(NLP)中的一项关键任务,它涉及识别和分类文本中的关键实体,BERT是一种强大的语言表示模型,在各种NLP任务中显著... 目录环境准备加载预训练BERT模型准备数据集标记与对齐微调 BERT最后总结环境准备在继续之前,确

最新Spring Security实战教程之Spring Security安全框架指南

《最新SpringSecurity实战教程之SpringSecurity安全框架指南》SpringSecurity是Spring生态系统中的核心组件,提供认证、授权和防护机制,以保护应用免受各种安... 目录前言什么是Spring Security?同类框架对比Spring Security典型应用场景传统

讯飞webapi语音识别接口调用示例代码(python)

《讯飞webapi语音识别接口调用示例代码(python)》:本文主要介绍如何使用Python3调用讯飞WebAPI语音识别接口,重点解决了在处理语音识别结果时判断是否为最后一帧的问题,通过运行代... 目录前言一、环境二、引入库三、代码实例四、运行结果五、总结前言基于python3 讯飞webAPI语音

使用Python开发一个图像标注与OCR识别工具

《使用Python开发一个图像标注与OCR识别工具》:本文主要介绍一个使用Python开发的工具,允许用户在图像上进行矩形标注,使用OCR对标注区域进行文本识别,并将结果保存为Excel文件,感兴... 目录项目简介1. 图像加载与显示2. 矩形标注3. OCR识别4. 标注的保存与加载5. 裁剪与重置图像

Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)

《Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)》本文介绍了如何使用Python和Selenium结合ddddocr库实现图片验证码的识别和点击功能,感兴趣的朋友一起看... 目录1.获取图片2.目标识别3.背景坐标识别3.1 ddddocr3.2 打码平台4.坐标点击5.图

如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解

《如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解》:本文主要介绍如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别的相关资料,描述了如何使用海康威视设备网络SD... 目录前言开发流程问题和解决方案dll库加载不到的问题老旧版本sdk不兼容的问题关键实现流程总结前言作为

浅析Rust多线程中如何安全的使用变量

《浅析Rust多线程中如何安全的使用变量》这篇文章主要为大家详细介绍了Rust如何在线程的闭包中安全的使用变量,包括共享变量和修改变量,文中的示例代码讲解详细,有需要的小伙伴可以参考下... 目录1. 向线程传递变量2. 多线程共享变量引用3. 多线程中修改变量4. 总结在Rust语言中,一个既引人入胜又可

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

usaco 1.3 Mixing Milk (结构体排序 qsort) and hdu 2020(sort)

到了这题学会了结构体排序 于是回去修改了 1.2 milking cows 的算法~ 结构体排序核心: 1.结构体定义 struct Milk{int price;int milks;}milk[5000]; 2.自定义的比较函数,若返回值为正,qsort 函数判定a>b ;为负,a<b;为0,a==b; int milkcmp(const void *va,c