Google发布“多巴胺”开源强化学习框架,三大特性全满足

本文主要是介绍Google发布“多巴胺”开源强化学习框架,三大特性全满足,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

640?wx_fmt=gif

640?wx_fmt=png

编译整理 | Just

编辑 | 阿司匹林

出品 | AI科技大本营



强化学习是一种非常重要 AI 技术,它能使用奖励(或惩罚)来驱动智能体(agents)朝着特定目标前进,比如它训练的 AI 系统 AlphaGo 击败了顶尖围棋选手,它也是 DeepMind 的深度 Q 网络(DQN)的核心部分,它可以在多个 workers 之间分步学习,例如,在 Atari 2600 游戏中实现“超人”性能。


麻烦的是,强化学习框架需要花费大量时间来掌握一个目标,而且框架往往是不灵活和不总是稳定的。


但不用担心,Google 近日发布了一个替代方案:基于 TensorFlow 的开源强化学习框架 Dopamine(多巴胺)。 


Google 的博文中提到,这个基于 Tensorflow 的强化学习框架,旨在为 RL 的研究人员提供灵活性,稳定性和可重复性的研究。受到大脑中奖励动机行为的主要成分的启发,以及反映神经科学与强化学习研究之间强烈的历史联系,该平台旨在实现可推动激进发现的思辨研究(speculative research)。此版本还包括一组阐明如何使用整个框架的 colabs。


除了强化学习框架的发布,谷歌还推出了一个网站(https://google.github.io/dopamine/baselines/plots.html),允许开发人员快速可视化多个智能体的训练运行情况。他们希望,这一框架的灵活性和易用性将使研究人员能积极尝试新的想法,不管是渐进式还是激进式的想法。


以下为 Google 博客详细内容,AI科技大本营编译:


引入灵活和可重复的强化学习研究的新框架

 

强化学习(RL)研究在过去几年中取得了许多重大进展。这些进步使得智能体可以以超人类级别的能力玩游戏。比如 Atari 游戏中 DeepMind 的 DQN ,AlphaGo ,AlphaGo Zero 以及 Open AI Five。


具体而言,在 DQN 中引入 replay memories 可以利用以前的智能体经验,大规模的分布式训练可以在多个 workers 之间分配学习过程,分布式方法允许智能体模拟完整的分布过程,而不仅仅是模拟它们期望值,以学习更完整的图景。这种类型的进展很重要,因为出现这些进步的算法还适用于其他领域,例如机器人技术。


通常,这种进步都来自于快速迭代设计(通常没有明确的方向),以及颠覆既定方法的结构。然而,大多数现有的 RL 框架并没有结合灵活性和稳定性以及使研究人员能够有效地迭代 RL 方法,并因此探索可能没有直接明显益处的新研究方向。此外,从现有框架再现结果通常太耗时,这可能导致科学的再现性问题。


今天,我们推出了一个新的基于 Tensorflow 的框架,旨在为 RL 的研究人员提供灵活性、稳定性和可重复性。受到大脑中奖励动机行为的主要成分的启发,以及反映神经科学与强化学习研究之间强烈的历史联系,该平台旨在实现可推动激进发现的思辨研究(speculative research)。此版本还包括一组阐明如何使用整个框架的 colabs。


易用性


清晰和简洁是该框架设计中要考虑的两个关键因素。我们提供更精简的代码(大约 15 个Python 文件),并且有详细记录。这是通过专注于 Arcade 学习环境(一个成熟的,易于理解的基准)和四个基于 value 的智能体来实现的:DQN,C51,一个精心策划的 Rainbow 智能体的简化版本,以及隐式分位数网络(Implicit Quantile Network)智能体,这已在上个月的 ICML  大会上已经发表。我们希望这种简洁性使研究人员能够轻松了解智能体内部的运作状况,并积极尝试新的想法。


可重复性


我们对重复性在强化学习研究中的重要性特别敏感。为此,我们为代码提供完整的测试覆盖率,这些测试也可作为其他文档形式。此外,我们的实验框架遵循 Machado 等人给出的关于使用 Arcade 学习环境标准化经验评估的建议。

 

基准测试 


对于新的研究人员来说,能够根据既定方法快速对其想法进行基准测试非常重要。因此,我们为 Arcade 学习环境支持的 60 个游戏提供四个智能体的完整培训数据,可用作 Python pickle 文件(用于使用我们框架训练的智能体)和 JSON 数据文件(用于与受过其他框架训练的智能体进行比较);我们还提供了一个网站,你可以在其中快速查看 60 个游戏中所有智能体的训练运行情况。


下面展示我们在 Seaquest 上的 4 个代理的训练情况,这是由 Arcade 学习环境支持的一种 Atari 2600 游戏。


640?wx_fmt=png

 

在 Seaquest 上的 4 名智能体参加了训练。x 轴表示迭代,其中每次迭代是 100 万个游戏帧(4.5 小时的实时游戏);y 轴是每场比赛获得的平均分数。阴影区域显示的是来自 5 次独立运行的置信区间。


我们还提供已经训练好的深度网络,原始统计日志以及用 Tensorboard 绘图的 Tensorflow 事件文件。这些都可以在网站的下载部分找到。

 

希望我们框架的灵活性和易用性将使研究人员敢于尝试新的想法,包括渐进式和激进式的想法。我们已经积极地将它用于我们的研究,并发现它能够灵活且快速迭代许多想法。我们很高兴可以为更大的社区做些贡献。


GitHub 链接:

https://github.com/google/dopamine/tree/master/docs#downloads


参考链接:

https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html

https://venturebeat.com/2018/08/27/google-releases-open-source-reinforcement-learning-framework-for-training-ai-models/

640?wx_fmt=gif

640?wx_fmt=jpeg


点击下方“阅读原文”了解【人工智能服务器】 ↓↓↓

这篇关于Google发布“多巴胺”开源强化学习框架,三大特性全满足的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/898070

相关文章

五大特性引领创新! 深度操作系统 deepin 25 Preview预览版发布

《五大特性引领创新!深度操作系统deepin25Preview预览版发布》今日,深度操作系统正式推出deepin25Preview版本,该版本集成了五大核心特性:磐石系统、全新DDE、Tr... 深度操作系统今日发布了 deepin 25 Preview,新版本囊括五大特性:磐石系统、全新 DDE、Tree

Linux Mint Xia 22.1重磅发布: 重要更新一览

《LinuxMintXia22.1重磅发布:重要更新一览》Beta版LinuxMint“Xia”22.1发布,新版本基于Ubuntu24.04,内核版本为Linux6.8,这... linux Mint 22.1「Xia」正式发布啦!这次更新带来了诸多优化和改进,进一步巩固了 Mint 在 Linux 桌面

多模块的springboot项目发布指定模块的脚本方式

《多模块的springboot项目发布指定模块的脚本方式》该文章主要介绍了如何在多模块的SpringBoot项目中发布指定模块的脚本,作者原先的脚本会清理并编译所有模块,导致发布时间过长,通过简化脚本... 目录多模块的springboot项目发布指定模块的脚本1、不计成本地全部发布2、指定模块发布总结多模

MyBatis框架实现一个简单的数据查询操作

《MyBatis框架实现一个简单的数据查询操作》本文介绍了MyBatis框架下进行数据查询操作的详细步骤,括创建实体类、编写SQL标签、配置Mapper、开启驼峰命名映射以及执行SQL语句等,感兴趣的... 基于在前面几章我们已经学习了对MyBATis进行环境配置,并利用SqlSessionFactory核

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

高效+灵活,万博智云全球发布AWS无代理跨云容灾方案!

摘要 近日,万博智云推出了基于AWS的无代理跨云容灾解决方案,并与拉丁美洲,中东,亚洲的合作伙伴面向全球开展了联合发布。这一方案以AWS应用环境为基础,将HyperBDR平台的高效、灵活和成本效益优势与无代理功能相结合,为全球企业带来实现了更便捷、经济的数据保护。 一、全球联合发布 9月2日,万博智云CEO Michael Wong在线上平台发布AWS无代理跨云容灾解决方案的阐述视频,介绍了

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推