bic谈话_让谈话强化学习基础知识第二部分

2024-01-27 16:59

本文主要是介绍bic谈话_让谈话强化学习基础知识第二部分,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

bic谈话

This is a continuation of the article Let’s talk Reinforcement Learning — The Fundamentals — Part 1. You can continue reading this article even if you have not read Part 1 if you can recognize the terms below.

这是文章“继续学习强化学习-基础知识-第1部分”的延续。即使您没有阅读第1部分,也可以继续阅读本文,前提是您可以理解以下术语。

See if you can recognize these terms: action, value, reward, k-bandit problem, exploitation vs exploration tradeoff, action selection, epsilon-greedy, upper-confidence bound. If you know at least 5 of these terms, you are good to go. If you are not sure don't worry you can always read Let’s talk Reinforcement Learning — The Fundamentals — Part 1 and come back.

看看您是否可以识别以下术语:动作,价值,报酬,k-bandit问题,开发与探索权衡,动作选择,ε贪婪,置信度上限。 如果您至少知道这些术语中的5个,那就很好了。 如果您不确定不要担心,可以随时阅读“ 增强学习-基础知识-第1部分”, 然后再回来。

In part 1 we saw basic things like rewards and estimating the action values. The K-armed bandit problem(humanoid doctor) gave us an intuition of what reinforcement learning is, but it is not enough to tackle real-world problems. Let us get rid of the humanoid doctor and introduce a new example: The story of a deer.

在第1部分中,我们看到了诸如奖励和估算行动价值之类的基本事物。 K武装匪徒问题(类人动物医生)使我们对强化学习是一种直觉,但不足以解决现实世界中的问题。 让我们摆脱类人动物医生,并介绍一个新的例子: 鹿的故事

Fun Fact: Deer adore fruits and nuts. They love pecans, hickory nuts, and beechnuts acorns in addition to acorns. A couple of favorite fruits are apples, blueberries, blackberries, and persimmons.[1]

趣闻:鹿喜欢水果坚果 。 除了橡子,他们还喜欢山核桃,山核桃和橡子。 苹果,蓝莓,黑莓和柿子是最喜欢的水果。[1]

Deers love to consume pecans. Our deer is at the “road not taken” situation. The left path has grass and the right path has pecans. Now the deer must take the right path to eat its favorite food. The reward is that it gets its hunger satiated and also it is like a feast. However, the left path is also good as it satiates its hunger. The reward is high on the right path. If it was a K-Bandit problem, we would have chosen the right path. Now see the fate of the deer. The deer takes the right path and starts eating pecans but within seconds, a lion starts chasing and eventually kills the deer. Oopsie. Let us not allow it and let’s teach the deer reinforcement learning using Markov Decision Processes.

鹿喜欢吃山核桃。 我们的鹿处在“未走之路”的境地。 左路径有草,右路径有山核桃。 现在,鹿必须走正确的道路才能吃到自己喜欢的食物。 奖励是它可以使饥饿得到满足,并且就像一场盛宴。 然而,左路也能很好地缓解饥饿感。 正确道路上的回报很高。 如果这是一个K-Bandit问题,我们将选择正确的路径。 现在看看鹿的命运。 鹿走了正确的路,开始吃山核桃,但是在几秒钟内,狮子开始追逐并最终杀死了鹿。 哎呀 让我们不允许它,让我们使用“ 马尔可夫决策过程”来教鹿增强学习。

The Markov Decision Process(MDP) gives us a way on estimating the rewards that we may get in the future. A bandit deer would have chosen the right path. But in order to make the deer take the left path, we must consider the actions as states. With each action taken the problem changes into a new state with rewards from that point of time.

马尔可夫决策过程( MDP )为我们提供了一种估计未来可能获得的回报的方法。 土匪鹿会选择正确的道路。 但是为了使鹿走左路,我们必须将这些动作视为状态。 从采取的每项行动开始,问题都会转变为新的状态,并从该时间点开始获得奖励。

Image for post

Now you can see the two sequences that are possible from the initial state i.e, the point where the deer has to take a path. Technically the agent generates a set of series of possible states at every discrete time steps and selects the best from the set.

现在您可以看到从初始状态(即鹿必须走的地方)开始的两个序列。 从技术上讲,代理会在每个离散时间步长生成一系列可能的状态,并从该状态中选择最佳状态。

Image for post

Just like Bandits, the outcomes of MDP is stochastic. Now probability theory comes to our rescue as possibilities are involved. With the transition dynamics probability function p(next state, reward|state, action), we can predict the joint probability of the next state and the set of rewards given the current state and action. Notice that the future state and rewards are only dependent on the current state and action. This is called Markov Property. As a side note, I would point out that unlike here, in Natural Language Processing previous states do matter a lot and they have techniques like Long Short Term Memory Cells and Transformers to deal them.

就像强盗一样,MDP的结果是随机的。 现在,随着可能性的发展,概率论进入了我们的拯救。 使用过渡动力学概率函数p(下一个状态,奖励|状态,动作) ,我们可以预测下一个状态的联合概率以及给定当前状态和活动的奖励集。 注意,将来的状态和奖励仅取决于当前的状态和动作。 这称为Markov属性 。 附带说明一下,我要指出的是,与此处不同的是,在自然语言处理中,以前的状态确实很重要,并且它们具有长短期记忆单元和变压器等技术来处理它们。

The important part of MDP is the modeling of the environment with all possible states, actions, rewards. This is done in the form of discrete graphs. Such graphs make it easy for us to implement in the form of vectors. From the story of the deer, the most important inference is to maximize the sum of rewards from a time step.

MDP的重要部分是对环境进行建模,其中包含所有可能的状态,动作和奖励。 这以离散图的形式完成。 这样的图使我们很容易以向量的形式实现。 从鹿的故事来看,最重要的推论是最大化时间步长的总和。

Image for post

Note that Gt is a random variable. We have so much randomness from a single action as it has many possible states and the MDP is stochastic. This is why we maximize the Expectation rather than the actual sum.

注意,Gt是随机变量。 一个动作有很多可能的状态,并且MDP是随机的,因此我们从一个动作中获得了太多的随机性。 这就是为什么我们最大化期望而不是实际总和的原因。

Image for post

The agent breaks up the series into episodes with a terminal point. Consider the case of deer. Here, the whole process of the deer trying to consume is an episode and actual consumption is the terminal point. This is called an episodic task. The whole point of the episodic task is to deal with what happens after the agent-environment interaction ends. When the agent encounters the episodic task, it resets itself to the start state.

特工将电视连续剧分成带有终点的剧集 。 考虑一下鹿的情况。 在这里,鹿试图消耗的整个过程是一个情节,而实际消耗是终点。 这称为情节任务 。 情节任务的全部重点是处理在主体与环境之间的交互结束之后发生的事情。 当代理程序遇到临时任务时,它将自己重置为开始状态。

I now want to pitch in a very important topic that you may want to dive deeper into. Reward Hypothesis. “Michael Littman calls this the reinforcement learning hypothesis. That name seems appropriate because it is a distinctive feature of reinforcement learning that it takes this hypothesis seriously. Markov decision processes involve rewards, but only with the onset of reinforcement learning has reward maximization been put forth seriously as a reasonable model of a complete intelligent agent analogous to a human being.”[2]

现在,我想提出一个非常重要的主题,您可能想深入探讨。 奖励假设。 迈克尔·利特曼这就要求强化学习假说 。 该名称似乎是适当的,因为它是强化学习的一个显着特征,因为它认真对待这一假设。 马尔可夫决策过程涉及奖励,但是只有在强化学习开始之后,奖励最大化才能作为类似于人的完整智能主体的合理模型被认真提出。” [2]

What is this? Let me try to put it in words. Think of air conditioners and what can possibly be the reward? Is it going to be the temperature or is it going to be the cost of electricity? Now think of the stock market, and here we have a pretty solid reward — The currency. So, it is not easy to define rewards for many cases in RL. But our brain somehow does it just like that. Think of a very rare objective that could be achieved. Let’s fix the objective to be Kim Jong Un and his path to winning the Nobel Peace Prize. I know it can’t happen, but let us consider an agent in the position of Kim. Now if we are so rigid with the rewards, like +1 for the noble prize and 0 otherwise. How can we monitor the agent’s progress? It is wise to split up and reward the agent with a low value of say +0.001 for even acts like keeping the people of North Korea happy which may lead to the ultimate goal of the agent. What is the point I’m struggling to convey? It is the selection of rewards, how you do it, and how well it turns out to work.

这是什么? 让我尝试用言语表达。 想想空调,什么可能是回报? 是温度还是电费? 现在想想股票市场,在这里,我们有相当丰厚的回报-货币。 因此,在RL中为许多情况定义奖励并不容易。 但是我们的大脑却以某种方式做到了。 想一个可以实现的非常罕见的目标。 让我们将目标定为金正恩及其赢得诺贝尔和平奖的道路。 我知道这是不可能的,但让我们考虑一下Kim的代理人。 现在,如果我们对奖励如此刻板,例如+1可获得高贵奖,否则为0。 我们如何监控代理的进度? 明智的做法是分散并奖励代理人,使他们获得+0.001的低价值,甚至是使朝鲜人民高兴的行为,甚至可能导致代理人的最终目标。 我要传达的重点是什么? 它是对奖励的选择,您如何做以及其效果如何。

We discussed episodic tasks. But there are also cases where an agent-environment interaction has no episodes or terminal points. An automatic air conditioner is a good example of this problem. Here, the agent has to constantly monitor the environment and adapt to the temperature to maintain the need of the user. These kinds of infinite tasks are called Continuing Tasks.

我们讨论了情景任务。 但是,在某些情况下,主体与环境之间的互动没有发作或终点。 自动空调就是这个问题的一个很好的例子。 在此,代理商必须不断监控环境并适应温度,以保持用户的需求。 这些无限的任务称为连续任务

The problem here is we are trying to sum up infinite rewards to maximize Gt. We need to model the problem into a finite one. Fortunately, discounting will help us deal with this. We can discount future rewards with γ which is at least 0 and lesser than 1.

这里的问题是我们试图总结无限的奖励以最大化Gt。 我们需要将问题建模为一个有限的问题。 幸运的是, 打折将帮助我们解决这个问题。 我们可以用至少为0且小于1的γ折现未来的奖励。

Image for post

The powers of gamma help in reducing the impact of future rewards. Logically it makes sense as you would want to consider your immediate rewards more than the future rewards like in the case of currency exchanges. Still, it looks like infinite right? Let’s pull some mathematical trick in here.

伽玛的力量有助于减少未来奖励的影响。 从逻辑上讲,这是有道理的,因为与货币兑换一样,您希望比即时奖励更多地考虑即时奖励。 不过,它看起来像是无限的吧? 让我们在这里拉一些数学技巧。

Image for post

Let us assume that Rmax is the maximum reward that an agent can achieve. Now we upper bound Gt by replacing all rewards with Rmax. Now we are going to rewrite the geometric series (summation of k to infinity of γ to the power k) to 1 / 1 - γ. Yay! we did it. Therefore Gt is finite.

让我们假设Rmax是代理可以实现的最大奖励。 现在我们通过用Rmax代替所有奖励来限制Gt的上限。 现在,我们将把几何级数( k与γ的无穷大之和乘以k )重写为1/1-γ。 好极了! 我们做到了。 因此,Gt是有限的。

Image for post

I hope that with all the mathematics we discussed the deer will make a decision that is good in the long run.

我希望,与我们讨论过的所有数学方法相比,鹿从长远来看会做出一个好的决定。

带走 (Takeaway)

i) Actions influence rewards but also it influences the future states, future action, and future rewards

i)行动会影响奖励,但也会影响未来的状态,未来的行动和未来的奖励

ii) The goal of an RL agent is to maximize the expected reward after time step t and not the immediate reward.

ii)RL代理的目标是在时间步长t之后而不是即时奖励中最大化预期奖励。

iii) The difference between episodic tasks and continuing tasks

iii)情节任务和连续任务之间的区别

翻译自: https://medium.com/swlh/letss-talk-reinforcement-learning-the-fundamentals-part-2-a9614087a647

bic谈话


http://www.taodudu.cc/news/show-8438764.html

相关文章:

  • iphone5隐藏应用_5个iPhone应用程序可跟踪您的投资
  • C# .NET Debug工具、UML工具介绍
  • Acronis True Image Home 2013/2014 key 及激活方法
  • 常用机器学习数据集网站
  • 死锁的排查方法和排查工具有哪些?
  • 【InfoQ】.NET的死锁调试工具——ACorns.Debugging
  • Acorns首席数据科学家种骥科:AI在“移动优先”的互联网金融商业模式中的应用
  • 机器学习系列---从【奥卡姆剃刀原则】到【没有免费午餐定理】
  • 奥卡姆剃刀与机器学习模型及评估指标的实践
  • 基于ZLMediaKit的GB28181视频平台demo
  • 人工智能技术在电梯中的应用
  • 【单片机】基于有方GPRS的智能电梯控制系统
  • 【这很AI】人工智能电梯也来了?等候时间减少至29秒,真的有必要吗?
  • 智能电梯仿真系统的 MATLAB GUI 设计与实现
  • 基于STM32单片机智能电梯控制系统语音播报记忆楼层毕业设计182
  • 2023年江西省职业院校技能大赛 高职组“智能电梯装配调试与检验”赛项 赛题库(一)
  • 2023年江西省职业院校技能大赛 高职组“智能电梯装配调试与检验”赛项 赛题库(三)
  • 基于MATLAB GUI智能电梯仿真系统
  • STM32项目设计:基于stm32f103c8t6智能电梯系统
  • 2023年江西省职业院校技能大赛 高职组“智能电梯装配调试与检验”赛项 赛题库(四)
  • CROS简介总结
  • CROS错误 网络跨域
  • laravel 在工作日(节假日除外)运行调度程序命令
  • java处理时间-去除节假日以及双休日
  • 中传计算机考研复试难吗,中传考研复试看脸吗?
  • 浙大计算机复试被刷再战,这么多400+大神复试被刷!院校真的有黑幕?!
  • 计算机专业哪些学校考研复试刷人少,复试压分严重、刷人比例高……这些院校慎重报考!附20考研弃考率...
  • HTML+CSS+CSS3高频面试题(88题附答案)
  • 程序猿专享语文试题(附个人解答)
  • 1千6个性测试文章大全ACCESS数据库
  • 这篇关于bic谈话_让谈话强化学习基础知识第二部分的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



    http://www.chinasem.cn/article/650903

    相关文章

    HarmonyOS学习(七)——UI(五)常用布局总结

    自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

    Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

    Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

    闲置电脑也能活出第二春?鲁大师AiNAS让你动动手指就能轻松部署

    对于大多数人而言,在这个“数据爆炸”的时代或多或少都遇到过存储告急的情况,这使得“存储焦虑”不再是个别现象,而将会是随着软件的不断臃肿而越来越普遍的情况。从不少手机厂商都开始将存储上限提升至1TB可以见得,我们似乎正处在互联网信息飞速增长的阶段,对于存储的需求也将会不断扩大。对于苹果用户而言,这一问题愈发严峻,毕竟512GB和1TB版本的iPhone可不是人人都消费得起的,因此成熟的外置存储方案开

    【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

    【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

    linux-基础知识3

    打包和压缩 zip 安装zip软件包 yum -y install zip unzip 压缩打包命令: zip -q -r -d -u 压缩包文件名 目录和文件名列表 -q:不显示命令执行过程-r:递归处理,打包各级子目录和文件-u:把文件增加/替换到压缩包中-d:从压缩包中删除指定的文件 解压:unzip 压缩包名 打包文件 把压缩包从服务器下载到本地 把压缩包上传到服务器(zip

    学习hash总结

    2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

    计组基础知识

    操作系统的特征 并发共享虚拟异步 操作系统的功能 1、资源分配,资源回收硬件资源 CPU、内存、硬盘、I/O设备。2、为应⽤程序提供服务操作系统将硬件资源的操作封装起来,提供相对统⼀的接⼝(系统调⽤)供开发者调⽤。3、管理应⽤程序即控制进程的⽣命周期:进程开始时的环境配置和资源分配、进程结束后的资源回收、进程调度等。4、操作系统内核的功能(1)进程调度能⼒: 管理进程、线

    零基础学习Redis(10) -- zset类型命令使用

    zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

    【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

    引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

    【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

    系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学