适合初学者的神经网络理论到实践(4): 打破概念束缚:强化学习是个啥?

本文主要是介绍适合初学者的神经网络理论到实践(4): 打破概念束缚:强化学习是个啥?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

适合初学者的神经网络理论到实践(3):打破概念束缚:强化学习是个啥?

注意:强化学习有很多概念,不要一开始被这些概念束缚了。首先得知道强化学习大致是什么,再看这些概念就会恍然大悟。 本文的思路就是先介绍我对强化学习的理解。然后介绍强化学习中的一些概念。最后是强化学习实践。

打破概念束缚:强化学习是个啥?

答:强化学习就是受到动物从生活中学习技能的思想启发的一种智能算法;那么怎么启发的呢?动物学习技能的过程就是不断尝试各种行为,最后总结经验,然后以后遇到相同情况直接用以往的经验就可以。强化学习就是这么做的。“不断猜测,检验,再猜测,再检验,直到找到达成目标的经验”这个过程就是强化学习。它学习的经验叫做模型。学习到了这些经验后以后就不用猜测了,直接用经验就可以。强化学习“学到”的经验是什么:“在某个状态下,做哪个行为,得到的奖励最大”,经验这是一个列表是一本教科书。

总结:强化学习的输出结果是找到解决某个问题的经验。强化学习的过程是不断乱尝试,并记录所处的状态和行为,找到某个状态下奖励最大的行为

为何要用强化学习?( 知道为什么才是打破概念束缚的关键)

答:因为智能体不知道哪些行为可以产生奖励,也不知道什么时候会来奖励。这些经验都是要从环境中学习所得到。

似懂非懂?没关系有个模糊的是那么回事的印象就可以。看下面的例子就懂了。

举个例子:在高中生物书上有个“ 巴甫洛夫的狗”这个实验。 就是巴甫洛夫每次给它狗喂食的时候都会摇铃铛,然后这条狗慢慢学到了“摇铃铛=有东西吃”这个经验。然后学到这个经验后,只要“摇铃铛”它就会流口水。强化学习就是受到这种启发而发明的算法。
从“巴甫洛夫的狗”看强化学习几个概念

强化学习思想很简单,7个词够了:

  • 智能体、目标、环境、观察、状态、行动、奖励

不要慌。接下来用例子来解释着7个东西是什么。 我们用“巴甫洛夫的狗”这个实验解释下这强化学习这个六个要素。

  1. 智能体首先这条狗它是一个智能体(Agent)
  2. 目标它的目标(Goal)是吃饭。
  3. 环境环境就是字面意思,它在的这个地方发生的一切都属于环境里面的东西。
  4. 观察然后,它各种看和听什么现象和食物相关。这个过程叫做观察
  5. 状态观察到的内容叫做状态(state)。这里的状态是:有没有饭吃、有没有人说话、有没有脚步声、有没有铃声。
  6. 行为然后它根据这些观察会作出一些动作,如:“摇尾巴,流口水等等”。这个叫做行为(action)。行为是根据观察内容(状态)而作出的。 这里可能的行为是(前半部分是状态,后半部分是行为):
  • 听到脚步声——摇尾巴
  • 听到铃声——流口水
  • 听到脚步声——流口水
  • 看到天黑了——汪汪汪叫

7. 奖励 在这里,奖励是作出的行为有没有饭吃。

    • 听到脚步声——摇尾巴——没饭吃
    • 听到铃声——流口水——饭吃
    • 听到脚步声——流口水——没饭吃
    • 看到天黑了——汪汪汪叫——没饭吃

从“巴甫洛夫的狗”分析强化学习执行过程

现在,我想你隐隐约约应该看出动物怎么学习的了。就是“不断猜测,检验,再猜测,再检验”,检验唯一标准是有没有达成目标。

但是怎么理性科学的看待这个问题呢?答:“不断猜测,检验,再猜测,再检验,直到找到达成目标的经验”这个过程就是强化学习。它学习的经验叫做模型。学习到了这些经验后以后就不用猜测了,直接用经验就可以。强化学习“学到”的经验是什么:“在某个状态下,做哪个行为,得到的奖励最大”,这是一个列表清单。

为何“狗”要不断尝试呢?

  • 因为它不知道哪些行为可以产生奖励,也不知道什么时候会来奖励。这些都是要从环境中学习所得到。

 

@Ai酱

 ,如果对你有帮助欢迎 赞赏、点赞、收藏、he关注 

@Ai酱

后续计划:

  • 强化学习入门:Q-Learning(Q学习)算法

相关文章:

适合初学者的神经网络理论到实践(1):单个神经元+随机梯度下降学习逻辑与规则

适合初学者的神经网络理论到实践(2):理解并实现反向传播及验证神经网络是否正确

Ai酱:概率统计与机器学习神经网络的联系?

答主姐姐开的零食新店活动季,康师傅桶面一箱装批发价,拼多多店铺“晓臻食品”,可零售可批发

转载于:https://www.cnblogs.com/ailitao/p/11047307.html

这篇关于适合初学者的神经网络理论到实践(4): 打破概念束缚:强化学习是个啥?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/588439

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

如何选择适合孤独症兄妹的学校?

在探索适合孤独症儿童教育的道路上,每一位家长都面临着前所未有的挑战与抉择。当这份责任落在拥有孤独症兄妹的家庭肩上时,选择一所能够同时满足两个孩子特殊需求的学校,更显得尤为关键。本文将探讨如何为这样的家庭做出明智的选择,并介绍星贝育园自闭症儿童寄宿制学校作为一个值得考虑的选项。 理解孤独症儿童的独特性 孤独症,这一复杂的神经发育障碍,影响着儿童的社交互动、沟通能力以及行为模式。对于拥有孤独症兄

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题

题库来源:安全生产模拟考试一点通公众号小程序 2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题是由安全生产模拟考试一点通提供,流动式起重机司机证模拟考试题库是根据流动式起重机司机最新版教材,流动式起重机司机大纲整理而成(含2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题参考答案和部分工种参考解析),掌握本资料和学校方法,考试容易。流动式起重机司机考试技

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss