AlphaGo首席研究员亲授！10张PPT介绍10大强化学习黄金法则！

2024-04-14 00:32

文章标签 学习介绍黄金强化法则 ppt 首席亲授 alphago 研究员

本文主要是介绍AlphaGo首席研究员亲授！10张PPT介绍10大强化学习黄金法则！，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

640?wx_fmt=png

来源：新智元

本文共多图，建议阅读10分钟。

为你分享Dave Silver在Deep Learning Indaba活动的主题演讲中归纳出的强化学习中要注意的10大要点。

640?wx_fmt=png

[ 导读 ]近日，谷歌DeepMind强化学习研究团队负责人、AlphaGo项目首席研究员Dave Silver在Deep Learning Indaba活动的主题演讲中归纳出了强化学习中要注意的10大要点。一起来看看，也许能少走点弯路。

近日，在南非斯泰伦博斯举行的Deep Learning Indaba活动上，谷歌DeepMind强化学习研究团队负责人、AlphaGo项目首席研究员Dave Silver在主题演讲中归纳出强化学习中要注意的10大要点。

活动主办方将Dave Silver演讲的PPT截图和文字要点发在了推特上，引发了广泛讨论。

Silver的演讲中提出的强化学习10大要点涵盖涉及算法评估、状态控制、建模函数等方面的心得和建议，非常值得开发者和机器学习爱好者参考学习。一起看看他是怎么说的吧！

640?wx_fmt=jpeg

1、在评估中产生进步

客观、量化的估计会产生进步，对评估尺度的选择会决定进步的方向。这可能是项目推进过程中做出的最重要的决定。

目标驱动型研究：确认评估标准与最终目标密切相关。避免主观评估

假设驱动型研究：提出假设，在宽泛的条件下验证假设，与相似结果对比，而不是与最先进的结果对比。重要的是对结果的理解，而不是追求排名。

640?wx_fmt=jpeg

2、算法的可扩展性决定是否成功

算法的可扩展性是指其性能随资源的梯度变化。这里的资源可能是计算、存储和数据。算法的可扩展性决定了能否项目能否成功，它几乎永远比算法的起点重要。最终，好的算法总是无限资源条件下的最优解决方案。

640?wx_fmt=jpeg

3、稳定算法的通用性

算法通用性是指算法在不同深度学习环境下的表现。应避免对当前任务的过拟合。积极寻求可以适用于未来未知环境下的算法。

结论：要广泛验证，建立现实的机器学习环境。

640?wx_fmt=jpeg

4、信任智能体的经验

经验（包括观察、动作、奖励）是指深度学习的数据。信任这些经验，将其作为唯一知识来源。尽管这些经验看上去不可学习，但最终长期来看，经验终将取得成功。

640?wx_fmt=jpeg

5、状态是主观的

智能体应该基于经验建立自身的状态，智能体的状态是关于其先前状态和新观察数据的函数。任何时候不要定义某一环境下的“真实”状态。

640?wx_fmt=jpeg

6、控制数据流

智能体处于大量数据流传感器环境中，智能体的行为会对数据流造成影响。

控制特征——控制数据流——控制未来——实现任何回报的最大化。

640?wx_fmt=jpeg

7、价值函数可以对世界建模

价值函数是对未来的高效归纳和缓存。多关注固定时间段的查找，而非指数级的前瞻。可以独立计算和学习。利用多价值函数可以在不同时间范围内，对世界各个方面进行高效建模。

应避免使用原始的时间步长对世界进行建模。

640?wx_fmt=jpeg

8、从想象的经验中进行学习

想象接下来会发生什么，从想象的经验中进行学习，同时关注在当前时刻的值函数估计。

640?wx_fmt=jpeg

9、加强函数逼近器

差异化网络架构是一种有力工具，可以用来:以丰富的方式表示状态，实现差异化存储、差异化规划、层级控制。

将算法的复杂性融入网络架构，可以降低算法的复杂度，增加网络架构的可表达性。

640?wx_fmt=jpeg

10、要学习“如何学习”

人工智能的发展史呈现出一条清晰的发展脉络。

第一代：“美好的”老式人工智能。手动控制预测，不学习任何内容。

第二代：浅度学习。手动控制特征，学习预测。

第三代：深度学习。手动控制算法（优化器、目标、架构），学习特征和端对端预测。

第四代：Meta学习。无手动环节，学习算法、特征和端对端预测。

参考链接：

https://twitter.com/DeepIndaba/status/1040234486250782721

640?wx_fmt=jpeg

640?wx_fmt=jpeg

这篇关于AlphaGo首席研究员亲授！10张PPT介绍10大强化学习黄金法则！的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/901637。 23002807@qq.com

相关文章

redis过期key的删除策略介绍

redis过期key的删除策略介绍

《redis过期key的删除策略介绍》：本文主要介绍redis过期key的删除策略,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录第一种策略：被动删除第二种策略：定期删除第三种策略：强制删除关于big key的清理UNLINK命令FLUSHALL/FLUSHDB命

阅读更多...

使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)

使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)

《使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)》PPT是一种高效的信息展示工具,广泛应用于教育、商务和设计等多个领域,PPT文档中常常包含丰富的图片内容,这些图片不仅提升了... 目录一、引言二、环境与工具三、python 提取PPT背景图片3.1 提取幻灯片背景图片3.2 提取

阅读更多...

Pytest多环境切换的常见方法介绍

Pytest多环境切换的常见方法介绍

《Pytest多环境切换的常见方法介绍》Pytest作为自动化测试的主力框架,如何实现本地、测试、预发、生产环境的灵活切换,本文总结了通过pytest框架实现自由环境切换的几种方法,大家可以根据需要进... 目录1.pytest-base-url2.hooks函数3.yml和fixture结论你是否也遇到过

阅读更多...

基于Python实现高效PPT转图片工具

基于Python实现高效PPT转图片工具

《基于Python实现高效PPT转图片工具》在日常工作中,PPT是我们常用的演示工具,但有时候我们需要将PPT的内容提取为图片格式以便于展示或保存,所以本文将用Python实现PPT转PNG工具,希望... 目录1. 概述2. 功能使用2.1 安装依赖2.2 使用步骤2.3 代码实现2.4 GUI界面3.效

阅读更多...

MySQL中慢SQL优化的不同方式介绍

MySQL中慢SQL优化的不同方式介绍

《MySQL中慢SQL优化的不同方式介绍》慢SQL的优化,主要从两个方面考虑,SQL语句本身的优化,以及数据库设计的优化,下面小编就来给大家介绍一下有哪些方式可以优化慢SQL吧... 目录避免不必要的列分页优化索引优化JOIN 的优化排序优化UNION 优化慢 SQL 的优化，主要从两个方面考虑，SQL 语

阅读更多...

C++中函数模板与类模板的简单使用及区别介绍

C++中函数模板与类模板的简单使用及区别介绍

《C++中函数模板与类模板的简单使用及区别介绍》这篇文章介绍了C++中的模板机制,包括函数模板和类模板的概念、语法和实际应用,函数模板通过类型参数实现泛型操作,而类模板允许创建可处理多种数据类型的类,... 目录一、函数模板定义语法真实示例二、类模板三、关键区别四、注意事项 ‌在C++中，模板是实现泛型编程

阅读更多...

Python实现html转png的完美方案介绍

Python实现html转png的完美方案介绍

《Python实现html转png的完美方案介绍》这篇文章主要为大家详细介绍了如何使用Python实现html转png功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 1.增强稳定性与错误处理建议使用三层异常捕获结构：try: with sync_playwright(

阅读更多...

Java使用多线程处理未知任务数的方案介绍

Java使用多线程处理未知任务数的方案介绍

《Java使用多线程处理未知任务数的方案介绍》这篇文章主要为大家详细介绍了Java如何使用多线程实现处理未知任务数,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 知道任务个数，你可以定义好线程数规则，生成线程数去跑代码说明：1.虚拟线程池：使用 Executors.newVir

阅读更多...

Java进阶学习之如何开启远程调式

Java进阶学习之如何开启远程调式

《Java进阶学习之如何开启远程调式》Java开发中的远程调试是一项至关重要的技能,特别是在处理生产环境的问题或者协作开发时,：本文主要介绍Java进阶学习之如何开启远程调式的相关资料,需要的朋友... 目录概述Java远程调试的开启与底层原理开启Java远程调试底层原理JVM参数总结&nbsMbKKXJx

阅读更多...

JAVA SE包装类和泛型详细介绍及说明方法

JAVA SE包装类和泛型详细介绍及说明方法

《JAVASE包装类和泛型详细介绍及说明方法》：本文主要介绍JAVASE包装类和泛型的相关资料,包括基本数据类型与包装类的对应关系,以及装箱和拆箱的概念,并重点讲解了自动装箱和自动拆箱的机制,文... 目录1. 包装类1.1 基本数据类型和对应的包装类1.2 装箱和拆箱1.3 自动装箱和自动拆箱2. 泛型2

阅读更多...