本文主要是介绍see后感-原因的原因不是原因,结果的结果不是结果,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
See
see了好久才see完,这篇文章写的确实好。
给个地址,方便哪天想再see的时候回来see。不过也有可能哪天这篇文章因为各种原因就不存在了。
以下内容来自这篇文章,对我而言是来理解这个图。
环境可以是真实世界,电脑游戏,模拟,甚至棋盘游戏,比如围棋或象棋。就像人类一样,人工智能代理人从其行为的结果中学习,而不是从明确的教导中学习。
在深度强化学习中,智能体是由神经网络表示的。神经网络直接与环境相互作用。它观察环境的当前状态,并根据当前状态和过去的经验决定采取何种行动(例如向左、向右移动等)。根据采取的行动,AI智能体收到一个奖励(Reward)。奖励的数量决定了在解决给定问题时采取的行动的质量(例如学习如何走路)。智能体的目标是学习在任何特定的情况下采取行动,使累积的奖励随时间最大化。
- 阿尔法狗每下的一盘棋,都是一次自我进化的学习过程,工作即学习,学习即工作;
- 阿尔法狗的唯一目标是终局胜负,因此而有强烈的使命感,钢铁般的意志,和石佛般的平常心(尽管它不需要这些形容词);
- 把每一手棋,都当作一个独立决策点,将当前的整个局面视为一个初始状态,根据当前局面,发现(模仿人的直觉)获胜概率较高的几手棋,并估算每一手棋的终局胜率;
- 从中选择最优决策;
- 等对方落子后,再次进入“初始状态”,根据更新的信息,重复以上动作,直至终局。
思考时“望见山那边”,行动时则信奉“车到山前必有路”。
一个有趣的现实是:
就像每天都是你余生中最年轻的一天,面向未来的决策不管多么艰难,在决策选项中,你总能发现相对最优的那一个。
这句话中的你总能发现相对最优的那一个
,是个哲学问题,就回到了考虑长远还是活在当下的问题。不过乔布斯曾经提到过的一句话,追求内心。无论考虑长远还是活在当下,可能最终问一问内心,这个答案会让自己更愿意去接受这个决策,也就会更专注的投入。在中国,就是那句最大的敌人,始终是自己,只有坚信自己的决定,并且最终成功了,那么才算是真正的自己。犯错没关系,不成功也没关系,有关系的是能否根据自己的判断决策走下去,注意力是集中在idea上而不是其他,因为按照自己的道路走过了,才能最终得到反馈,直到通往成功的方向。
See后感
干活吧,想啥呢
这篇关于see后感-原因的原因不是原因,结果的结果不是结果的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!