障眼法修行指南:GAN是怎样一步步学会“骗人”的?

2023-12-14 06:50

本文主要是介绍障眼法修行指南:GAN是怎样一步步学会“骗人”的?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

640?wx_fmt=gif 640?wx_fmt=jpeg

算法,就像是武林绝学中的“内功”,是计算机领域最重要的基石。不过,算法多了也很麻烦。不断推陈出新的算法是否更新更快更好,大厂各执一词,评价褒贬不一。


没有“内功”,不可能成为高手;“内功”多了,难免走火入魔。


或许搞清楚一种算法是在何时以何种方式何种面貌进化的,能更清晰地理解它的现在和未来。


今天的算法简史,就从火遍整个AI圈的机器学习模型GAN说起。


640?wx_fmt=png


从传统模型到逼真的GAN2.0,

生成算法经历了哪些变化?


生成式对抗网络(GAN, Generative Adversarial Networks )是一种深度学习模型,作为在无监督学习上最具前景的算法之一,最早是在2014年由学者Ian J. Goodfellow等人提出的。


在GAN所代表的深度学习之前,已经有很多生成模型。但这种模型是从概率统计角度出发的,指的是用于随机生成可观测数据的模型,很难直接描述和建模。让科研人员在遇到了不少挑战。


比如说传统的图像生成模型,将图像表示为一个随机向量,其中每一维都代表一个像素值,然后假设自然场景中的图像都服从一个未知的分布规则,再通过一些观测样本来估计其分布。


显然,这种难以描述和直接建模的生成模型,让科研人员遇到了不少挑战。最为重要的一点是,系统无从判断预测结果的质量。


640?wx_fmt=png


而原始版GAN(我们称之为GAN1.0),就在深度学习的浪潮下应运而生。


GAN1.0不仅可以利用深层神经网络模拟任意函数的能力,让复杂的分布判断得以被建模,而且增加了判别器。


于是“生成器网络”和“判别器网络”互相博弈,一个不停地捕捉数据产生新样本,一个不停提出质疑和挑战来判断所生成的样本是否真实。通过自我对抗不断改进,最终达到很好的输出结果。


640?wx_fmt=png

生成高分辨率名人相,作者Karras et. Al


可以说,GAN开启了生成算法的“实用时代”。当然,它并非是十全十美的,针对GAN1.0一些尚未解决的问题,还产生了不少变种算法。


比如Alec Radford et. Al对GAN做了一些架构上的优化,使用超参数和优化器改进之后,可以得到足以乱真的卧室图片。


640?wx_fmt=png


如果说GAN1.0的生成能力已经令人五体投地,那么最近英伟达研究人员推出的升级版GAN(我们称之为GAN2.0),更是足够让人献上一年份的膝盖。


GAN2.0采用了基于风格的生成器新结构,可以将面部细节分离出来,通过模型进行单独调整,生成的面部图像结果大幅度超越了GAN1.0和其他模型。


之所以如此牛叉,一是因为GAN2.0可以更好地感知图像之间有意义的变化,并对其进行引导,让生成的人脸更逼真,而且还能用于汽车、动物、风景图像的生成。


640?wx_fmt=png


历史脉络梳理清楚了之后,不难看出,深度学习为更高拟真度的生成算法奠定了基础和可能。而GAN的对抗性及其应用价值,又让图像生成算法成为了一门人人趋之若鹜的神器。


GAN的一小步,

图像生成的一大步


那么,GAN模型发展到现在,到底经历了什么样的变化,又从无到有地获得了哪些能力呢?


主要集中在以下几个方面:


1.找重点。GAN2.0采用的生成器架构,提取的图像风格不再是笔划或颜色空间这种僵硬的数据,而是图像的组成和脸部物理特征等泛属性,因此可以感知到图像之间哪些变化是有意义的(耳朵的形状),哪些特征无需重点关注(衬衫的颜色),因此比例的控制更细腻,生成的效果自然也就越逼真。


2.排除法。图像中很多随机且不起重要影响的细节,比如毛发、雀斑的具体位置等等,只要符合基本的规则分布,GAN2.0可以自主将一些随机变化剔除。


3.省资源。GAN2.0可以将完整的特征图像进行缩放,这意味着,在没有明确指导的自主学习环境下,系统能够自行判断使用全局或本地通道,从而大大提高了整体效率。


640?wx_fmt=png

GAN可以改变图像中的季节


这背后隐藏着的,正是算法的本源价值——那就是将严谨的科学求证思维,与务实的工程方法相结合,解决问题的一种最佳方案。


而具体到生成任务上时,算法的“优越性”往往体现在三点:一是能够更准确地判断和预测刺激的位置;二是可以进行更小粒度地调整,让结果更自然;最后是更具想象力和创造力,让算法发挥的空间更大。


显然,GAN的发展正符合人类接近生成任务所面临的问题时,应该遵循的基本规则。


GAN身上映射的算法进化论


GAN这一算法的进化,带来了很多热辣新鲜的想象力。


除了我们熟悉的仿真人脸、语义分割、声音处理等常规应用之外,还有一些因模糊而具有庞大想象空间的炫酷应用。


比如,谷歌大脑用GAN让神经网络学会联想。系统可以在完全不相关的图像中,发现一些与狗、房子、鱼等物体的相似之处,然后凭借自己的“想象力”将其呈现出来。这些奇幻的画作,既是一种机器创作的“先锋艺术”,更代表着很多人类思维也无法企及的奇幻世界正在被机器路径打开。


640?wx_fmt=png


另外,在GAN的作用下,能自主模仿人类动作的智能体正在成为可能。以往的算法总是需要海量规模的数据集和大量训练才能够有比较优秀的表现。但在模仿学习中,智能体无需奖励机制就可以自主进行学习。


更夸张的 是,机器不仅无需奖励,甚至可以凭借“好奇心”这一信号去主动探索,这使得机器的学习成本、探索范围、学习效率都要比其他方式要强得多。


总而言之,GAN的进化让我们清晰地感受到了机器学习的模式和成本都在发生颠覆式的改变。

 

这背后隐藏着两个算法进化的核心特点:


1.自主学习,“无监督”比有监督更有潜力。从GAN1.0初问世的火爆,到GAN2.0的逆天突破,可以看出,能够在无需任何监督信息的情况下自主完成训练,这样能够自我进化的算法,才是通用人工智能的基石。


2.效率至上,抛弃效率谈智力都是耍流氓。实验室里的算法未必能够满足商业应用的长期需要,在实践中,可能要经历成本昂贵的磨合及试错过程,必须解决效率问题。GAN的进化过程,就是一个从调用全栈资源,到懂得合理分配控制空间,懂得“过日子”的算法才适用于通用智能化的现实世界。


GAN3.0未来可能的样子


话题进行到这里,或许我们可以设想一下,如果未来还将出现GAN3.0,它会是什么样子?


这里不妨大开脑洞一下:


首先,GAN3.0一定是在2.0基础上各个维度的再升级,加上机器“想象力”的加持,效果将不再局限于高精度模拟人脸或者是模拟现实世界,创造出毫无违和感的全新物种,成为新“造物主”都是极有可能的。


另外,GAN3.0对样本规模和精度的要求更低,这就使少样本预测成为可能,这也意味着随着英伟达、谷歌等不断开发自己的数据集,很多小型公司也有可能掌握迭代和优化系统的能力。也许,GAN3.0的提出者,现在还在车库里默默写代码呢。


这一可能性也带来了竞争关键点的变化,未来研究者和使用者PK的重点,可能在创造力上。如何应用更强大的对抗生成网络解决更复杂的机器智能问题,考验的并不是算法本身的强弱,而是一种思维和方法论。


常有AI开发者感慨,每次都感觉用的是别人家的GAN,即便是相同的代码和数据集,自己也从来没有做出过相同的效果。你和别人之间是不是只差一个算法,自己心里没点数吗?


640?wx_fmt=png


殊途同归,如果真有GAN3.0,它也会回归“算法”的本质,那就是理解和演绎数字世界的逻辑思维和工程手段。


也因此,掌握了某一个先进的算法,并不意味着就能捧回世界冠军的冠冕,决定技术生命力的,是不断精进的“内功”。

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=gif

640?wx_fmt=jpeg

这篇关于障眼法修行指南:GAN是怎样一步步学会“骗人”的?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/491551

相关文章

在React中引入Tailwind CSS的完整指南

《在React中引入TailwindCSS的完整指南》在现代前端开发中,使用UI库可以显著提高开发效率,TailwindCSS是一个功能类优先的CSS框架,本文将详细介绍如何在Reac... 目录前言一、Tailwind css 简介二、创建 React 项目使用 Create React App 创建项目

SpringBoot3实现Gzip压缩优化的技术指南

《SpringBoot3实现Gzip压缩优化的技术指南》随着Web应用的用户量和数据量增加,网络带宽和页面加载速度逐渐成为瓶颈,为了减少数据传输量,提高用户体验,我们可以使用Gzip压缩HTTP响应,... 目录1、简述2、配置2.1 添加依赖2.2 配置 Gzip 压缩3、服务端应用4、前端应用4.1 N

使用Jackson进行JSON生成与解析的新手指南

《使用Jackson进行JSON生成与解析的新手指南》这篇文章主要为大家详细介绍了如何使用Jackson进行JSON生成与解析处理,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 核心依赖2. 基础用法2.1 对象转 jsON(序列化)2.2 JSON 转对象(反序列化)3.

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

Spring Boot结成MyBatis-Plus最全配置指南

《SpringBoot结成MyBatis-Plus最全配置指南》本文主要介绍了SpringBoot结成MyBatis-Plus最全配置指南,包括依赖引入、配置数据源、Mapper扫描、基本CRUD操... 目录前言详细操作一.创建项目并引入相关依赖二.配置数据源信息三.编写相关代码查zsRArly询数据库数

SpringBoot启动报错的11个高频问题排查与解决终极指南

《SpringBoot启动报错的11个高频问题排查与解决终极指南》这篇文章主要为大家详细介绍了SpringBoot启动报错的11个高频问题的排查与解决,文中的示例代码讲解详细,感兴趣的小伙伴可以了解一... 目录1. 依赖冲突:NoSuchMethodError 的终极解法2. Bean注入失败:No qu

JavaScript错误处理避坑指南

《JavaScript错误处理避坑指南》JavaScript错误处理是编程过程中不可避免的部分,它涉及到识别、捕获和响应代码运行时可能出现的问题,本文将详细给大家介绍一下JavaScript错误处理的... 目录一、错误类型:三大“杀手”与应对策略1. 语法错误(SyntaxError)2. 运行时错误(R

Python使用date模块进行日期处理的终极指南

《Python使用date模块进行日期处理的终极指南》在处理与时间相关的数据时,Python的date模块是开发者最趁手的工具之一,本文将用通俗的语言,结合真实案例,带您掌握date模块的六大核心功能... 目录引言一、date模块的核心功能1.1 日期表示1.2 日期计算1.3 日期比较二、六大常用方法详

MySQL中慢SQL优化方法的完整指南

《MySQL中慢SQL优化方法的完整指南》当数据库响应时间超过500ms时,系统将面临三大灾难链式反应,所以本文将为大家介绍一下MySQL中慢SQL优化的常用方法,有需要的小伙伴可以了解下... 目录一、慢SQL的致命影响二、精准定位问题SQL1. 启用慢查询日志2. 诊断黄金三件套三、六大核心优化方案方案

使用Python高效获取网络数据的操作指南

《使用Python高效获取网络数据的操作指南》网络爬虫是一种自动化程序,用于访问和提取网站上的数据,Python是进行网络爬虫开发的理想语言,拥有丰富的库和工具,使得编写和维护爬虫变得简单高效,本文将... 目录网络爬虫的基本概念常用库介绍安装库Requests和BeautifulSoup爬虫开发发送请求解