文章目录 马尔可夫决策过程(MDP)在机器学习中应用在机器学习中的引用示例引用: 实例场景:机器人导航MDP的定义:引用示例: 在此基础上更具体的描述,并给出每一步的推断计算过程场景描述:3x3网格中的机器人导航MDP的定义强化学习算法:Q-Learning具体实例与推断计算过程回合1( E p i s o d e 1 Episode 1 Episode1)回合2( E p i s
1 背景 机器学习大致可以分为两个派别,也就是频率派和贝叶斯派的方法,这个之前,我们都有过详细 的说明。这里再大致的回顾一下。 频率派的思想就衍生出了统计学习方法,说白了统计学习方法的重点在于优化,找 loss function。 频率派的方法可以分成三步: 定义 Model, 比如 f ( w ) = w T x + b f(w)=w^{T} x+b f(w)=wTx+b;寻找策略 st
Leveraged Long or Short Index Funds杠杆多头或空头指数基金 As index markets have become more popular, fi nancial engineering has created a wide range of innovative trading vehicles. Mutual funds, such as Ry