适合初学者的神经网络理论到实践(4): 打破概念束缚:强化学习是个啥?

本文主要是介绍适合初学者的神经网络理论到实践(4): 打破概念束缚:强化学习是个啥?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

适合初学者的神经网络理论到实践(3):打破概念束缚:强化学习是个啥?

注意:强化学习有很多概念,不要一开始被这些概念束缚了。首先得知道强化学习大致是什么,再看这些概念就会恍然大悟。 本文的思路就是先介绍我对强化学习的理解。然后介绍强化学习中的一些概念。最后是强化学习实践。

打破概念束缚:强化学习是个啥?

答:强化学习就是受到动物从生活中学习技能的思想启发的一种智能算法;那么怎么启发的呢?动物学习技能的过程就是不断尝试各种行为,最后总结经验,然后以后遇到相同情况直接用以往的经验就可以。强化学习就是这么做的。“不断猜测,检验,再猜测,再检验,直到找到达成目标的经验”这个过程就是强化学习。它学习的经验叫做模型。学习到了这些经验后以后就不用猜测了,直接用经验就可以。强化学习“学到”的经验是什么:“在某个状态下,做哪个行为,得到的奖励最大”,经验这是一个列表是一本教科书。

总结:强化学习的输出结果是找到解决某个问题的经验。强化学习的过程是不断乱尝试,并记录所处的状态和行为,找到某个状态下奖励最大的行为

为何要用强化学习?( 知道为什么才是打破概念束缚的关键)

答:因为智能体不知道哪些行为可以产生奖励,也不知道什么时候会来奖励。这些经验都是要从环境中学习所得到。

似懂非懂?没关系有个模糊的是那么回事的印象就可以。看下面的例子就懂了。

举个例子:在高中生物书上有个“ 巴甫洛夫的狗”这个实验。 就是巴甫洛夫每次给它狗喂食的时候都会摇铃铛,然后这条狗慢慢学到了“摇铃铛=有东西吃”这个经验。然后学到这个经验后,只要“摇铃铛”它就会流口水。强化学习就是受到这种启发而发明的算法。
从“巴甫洛夫的狗”看强化学习几个概念

强化学习思想很简单,7个词够了:

  • 智能体、目标、环境、观察、状态、行动、奖励

不要慌。接下来用例子来解释着7个东西是什么。 我们用“巴甫洛夫的狗”这个实验解释下这强化学习这个六个要素。

  1. 智能体首先这条狗它是一个智能体(Agent)
  2. 目标它的目标(Goal)是吃饭。
  3. 环境环境就是字面意思,它在的这个地方发生的一切都属于环境里面的东西。
  4. 观察然后,它各种看和听什么现象和食物相关。这个过程叫做观察
  5. 状态观察到的内容叫做状态(state)。这里的状态是:有没有饭吃、有没有人说话、有没有脚步声、有没有铃声。
  6. 行为然后它根据这些观察会作出一些动作,如:“摇尾巴,流口水等等”。这个叫做行为(action)。行为是根据观察内容(状态)而作出的。 这里可能的行为是(前半部分是状态,后半部分是行为):
  • 听到脚步声——摇尾巴
  • 听到铃声——流口水
  • 听到脚步声——流口水
  • 看到天黑了——汪汪汪叫

7. 奖励 在这里,奖励是作出的行为有没有饭吃。

    • 听到脚步声——摇尾巴——没饭吃
    • 听到铃声——流口水——饭吃
    • 听到脚步声——流口水——没饭吃
    • 看到天黑了——汪汪汪叫——没饭吃

从“巴甫洛夫的狗”分析强化学习执行过程

现在,我想你隐隐约约应该看出动物怎么学习的了。就是“不断猜测,检验,再猜测,再检验”,检验唯一标准是有没有达成目标。

但是怎么理性科学的看待这个问题呢?答:“不断猜测,检验,再猜测,再检验,直到找到达成目标的经验”这个过程就是强化学习。它学习的经验叫做模型。学习到了这些经验后以后就不用猜测了,直接用经验就可以。强化学习“学到”的经验是什么:“在某个状态下,做哪个行为,得到的奖励最大”,这是一个列表清单。

为何“狗”要不断尝试呢?

  • 因为它不知道哪些行为可以产生奖励,也不知道什么时候会来奖励。这些都是要从环境中学习所得到。

 

@Ai酱

 ,如果对你有帮助欢迎 赞赏、点赞、收藏、he关注 

@Ai酱

后续计划:

  • 强化学习入门:Q-Learning(Q学习)算法

相关文章:

适合初学者的神经网络理论到实践(1):单个神经元+随机梯度下降学习逻辑与规则

适合初学者的神经网络理论到实践(2):理解并实现反向传播及验证神经网络是否正确

Ai酱:概率统计与机器学习神经网络的联系?

答主姐姐开的零食新店活动季,康师傅桶面一箱装批发价,拼多多店铺“晓臻食品”,可零售可批发

转载于:https://www.cnblogs.com/ailitao/p/11047307.html

这篇关于适合初学者的神经网络理论到实践(4): 打破概念束缚:强化学习是个啥?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/588439

相关文章

Spring Boot 配置文件之类型、加载顺序与最佳实践记录

《SpringBoot配置文件之类型、加载顺序与最佳实践记录》SpringBoot的配置文件是灵活且强大的工具,通过合理的配置管理,可以让应用开发和部署更加高效,无论是简单的属性配置,还是复杂... 目录Spring Boot 配置文件详解一、Spring Boot 配置文件类型1.1 applicatio

tomcat多实例部署的项目实践

《tomcat多实例部署的项目实践》Tomcat多实例是指在一台设备上运行多个Tomcat服务,这些Tomcat相互独立,本文主要介绍了tomcat多实例部署的项目实践,具有一定的参考价值,感兴趣的可... 目录1.创建项目目录,测试文China编程件2js.创建实例的安装目录3.准备实例的配置文件4.编辑实例的

Python 中的异步与同步深度解析(实践记录)

《Python中的异步与同步深度解析(实践记录)》在Python编程世界里,异步和同步的概念是理解程序执行流程和性能优化的关键,这篇文章将带你深入了解它们的差异,以及阻塞和非阻塞的特性,同时通过实际... 目录python中的异步与同步:深度解析与实践异步与同步的定义异步同步阻塞与非阻塞的概念阻塞非阻塞同步

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

springboot集成Deepseek4j的项目实践

《springboot集成Deepseek4j的项目实践》本文主要介绍了springboot集成Deepseek4j的项目实践,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价... 目录Deepseek4j快速开始Maven 依js赖基础配置基础使用示例1. 流式返回示例2. 进阶

Android App安装列表获取方法(实践方案)

《AndroidApp安装列表获取方法(实践方案)》文章介绍了Android11及以上版本获取应用列表的方案调整,包括权限配置、白名单配置和action配置三种方式,并提供了相应的Java和Kotl... 目录前言实现方案         方案概述一、 androidManifest 三种配置方式

Spring Boot中定时任务Cron表达式的终极指南最佳实践记录

《SpringBoot中定时任务Cron表达式的终极指南最佳实践记录》本文详细介绍了SpringBoot中定时任务的实现方法,特别是Cron表达式的使用技巧和高级用法,从基础语法到复杂场景,从快速启... 目录一、Cron表达式基础1.1 Cron表达式结构1.2 核心语法规则二、Spring Boot中定

Ubuntu中Nginx虚拟主机设置的项目实践

《Ubuntu中Nginx虚拟主机设置的项目实践》通过配置虚拟主机,可以在同一台服务器上运行多个独立的网站,本文主要介绍了Ubuntu中Nginx虚拟主机设置的项目实践,具有一定的参考价值,感兴趣的可... 目录简介安装 Nginx创建虚拟主机1. 创建网站目录2. 创建默认索引文件3. 配置 Nginx4

Java进阶学习之如何开启远程调式

《Java进阶学习之如何开启远程调式》Java开发中的远程调试是一项至关重要的技能,特别是在处理生产环境的问题或者协作开发时,:本文主要介绍Java进阶学习之如何开启远程调式的相关资料,需要的朋友... 目录概述Java远程调试的开启与底层原理开启Java远程调试底层原理JVM参数总结&nbsMbKKXJx

Nginx实现高并发的项目实践

《Nginx实现高并发的项目实践》本文主要介绍了Nginx实现高并发的项目实践,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录使用最新稳定版本的Nginx合理配置工作进程(workers)配置工作进程连接数(worker_co