Sequential Decision Making under uncertain - 不确定性条件下的序列决策制定

2023-11-23 18:59

文章标签 条件序列 sequential 不确定性 making decision 决策制定 uncertain

本文主要是介绍Sequential Decision Making under uncertain - 不确定性条件下的序列决策制定，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Sequential Decision Making

序列决策制定可以被归纳为为下面的交互式闭环过程：
在这里插入图片描述
目标：选择能够最大化未来全部收益期望的动作(actions)。

这可能不一直都是好的标准，但这是大多数强化学习所关注的。但现在也有一些人对distribution honorable强化学习和其他方面有兴趣

可能需要平衡即时收益和长期回报
可能需要策略化的行为以取得高回报(你可能需要牺牲初始阶段的高奖励以取得更好的长期奖励)

更进一步地：
在这里插入图片描述
在每一个时间步t:

Agent 采取一个action $a_t$
World 更新执行 $a_t$ 后的状态，返回观察 $o_t$ 和奖励 $r_t$
Agent 接收观察 $o_t$ 和奖励 $r_t$

我们可以定义一个history $h_t=(a_1,o_1,r_1,...,a_t,o_t,r_t)$

Agent基于history选择action。

State是假定去确定下一步发生什么的信息：

或者说State是history的一个函数： $s_t=f(h_t)$

World State

World State(为了和State作区分，是world的真实状态，agent有自己独有的状态空间)被用于确定world如何产生下一个观察和奖励
World State通常对agent来说是不可见的或者未知的
即使会包含一些agent不需要的信息

Agent State

被agent用于制定决策如何行动
总的来说是一个历史的函数 $s_t=f(h_t)$
可以包含诸如算法状态的元信息(执行了多少计算步骤，等)或决策过程(一轮里还有多少决策需要制定)

Markov Assumption

information state：充足的history的统计数据。
State $s_t$ 是马尔科夫的当且仅当：
$p(s_{t+1}|s_t,a_t)=p(s_{t+1}|h_t,a_t )$
为了对未来做出预测，只需要知道Enviroment的当前状态，即给定现在时未来对过去是独立的。

Why is Markov Assumption Polular ？

Markov Assumption可以一直被满足
- 只要把state设定成history它就是马尔科夫的： $s_t=h_t$
在实践中通常假定最近的观察是充足的history统计数据： $s_t=o_t$
State representation 对以下有影响：
- 计算复杂度
- 需要的数据量
- 最终结果的性能

Full Observability / Markov Decision Process(MDP)

如果我们假定Environment的观察等于world的state: $s_t=o_t$ ，那么agent就是以马尔科夫决策过程(MDP)来建模world的。

Partial Observability / Partially Observable Markov Decision Process(POMDP)

Agent的state和world的state是不同的(partially)
Agent自己构建自己的state，e.g
- 使用history $s_t=h_t$ ，或者使用world state的belief(信念)，或者使用RNN

Types of Sequential Decision Process: Bandits

Bandits(老虎机)：action对下一个观察没有影响
没有延期的奖励。

Bandits是一种简单的马尔科夫决策过程。

Types of Sequential Decision Process: MDPs and POMDPs

在这里插入图片描述
对MDP和POMDP来说：

actions会影响未来的观察
可能需要奖励分配(Credit assignment)和策略化action

Types of Sequential Decision Process: How does the world changes

Deterministic(确定性):给定一个history和action，只会产生一个观察(obsercation)和奖励(reward)
- 在机器人和控制论里是常见假设
Stochastic(随机性): 给定一个history和action，可能会有多个潜在的观察(obsercation)和奖励(reward)
- 针对顾客，患者，难以建模的领域来说是常见假设

这篇关于Sequential Decision Making under uncertain - 不确定性条件下的序列决策制定的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/420056。 23002807@qq.com

相关文章

MySQL 筛选条件放 ON后 vs 放 WHERE 后的区别解析

MySQL 筛选条件放 ON后 vs 放 WHERE 后的区别解析

《MySQL筛选条件放ON后vs放WHERE后的区别解析》文章解释了在MySQL中,将筛选条件放在ON和WHERE中的区别,文章通过几个场景说明了ON和WHERE的区别,并总结了ON用于关... 今天我们来讲讲数据库筛选条件放 ON 后和放 WHERE 后的区别。ON 决定如何 "连接" 表，WHERE

阅读更多...

MybatisPlus中几种条件构造器运用方式

MybatisPlus中几种条件构造器运用方式

《MybatisPlus中几种条件构造器运用方式》QueryWrapper是Mybatis-Plus提供的一个用于构建SQL查询条件的工具类,提供了各种方法如eq、ne、gt、ge、lt、le、lik... 目录版本介绍QueryWrapperLambdaQueryWrapperUpdateWrapperL

阅读更多...

Python的Darts库实现时间序列预测

Python的Darts库实现时间序列预测

《Python的Darts库实现时间序列预测》Darts一个集统计、机器学习与深度学习模型于一体的Python时间序列预测库,本文主要介绍了Python的Darts库实现时间序列预测,感兴趣的可以了解... 目录目录一、什么是 Darts？二、安装与基本配置安装 Darts导入基础模块三、时间序列数据结构与

阅读更多...

C# LiteDB处理时间序列数据的高性能解决方案

C# LiteDB处理时间序列数据的高性能解决方案

《C#LiteDB处理时间序列数据的高性能解决方案》LiteDB作为.NET生态下的轻量级嵌入式NoSQL数据库,一直是时间序列处理的优选方案,本文将为大家大家简单介绍一下LiteDB处理时间序列数... 目录为什么选择LiteDB处理时间序列数据第一章：LiteDB时间序列数据模型设计1.1 核心设计原则

阅读更多...

从基础到进阶详解Python条件判断的实用指南

从基础到进阶详解Python条件判断的实用指南

《从基础到进阶详解Python条件判断的实用指南》本文将通过15个实战案例,带你大家掌握条件判断的核心技巧,并从基础语法到高级应用一网打尽,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一... 目录引言：条件判断为何如此重要一、基础语法：三行代码构建决策系统二、多条件分支：elif的魔法三、

阅读更多...

Linux中的自定义协议+序列反序列化用法

Linux中的自定义协议+序列反序列化用法

《Linux中的自定义协议+序列反序列化用法》文章探讨网络程序在应用层的实现,涉及TCP协议的数据传输机制、结构化数据的序列化与反序列化方法,以及通过JSON和自定义协议构建网络计算器的思路,强调分层... 目录一，再次理解协议二，序列化和反序列化三，实现网络计算器3.1 日志文件3.2Socket.hpp

阅读更多...

Spring的RedisTemplate的json反序列泛型丢失问题解决

Spring的RedisTemplate的json反序列泛型丢失问题解决

《Spring的RedisTemplate的json反序列泛型丢失问题解决》本文主要介绍了SpringRedisTemplate中使用JSON序列化时泛型信息丢失的问题及其提出三种解决方案,可以根据性... 目录背景解决方案方案一方案二方案三总结背景在使用RedisTemplate操作redis时我们针对

阅读更多...

SQL中JOIN操作的条件使用总结与实践

SQL中JOIN操作的条件使用总结与实践

《SQL中JOIN操作的条件使用总结与实践》在SQL查询中,JOIN操作是多表关联的核心工具,本文将从原理,场景和最佳实践三个方面总结JOIN条件的使用规则,希望可以帮助开发者精准控制查询逻辑... 目录一、ON与WHERE的本质区别二、场景化条件使用规则三、最佳实践建议1.优先使用ON条件2.WHERE用

阅读更多...

利用Python实现时间序列动量策略

利用Python实现时间序列动量策略

《利用Python实现时间序列动量策略》时间序列动量策略作为量化交易领域中最为持久且被深入研究的策略类型之一,其核心理念相对简明：对于显示上升趋势的资产建立多头头寸,对于呈现下降趋势的资产建立空头头寸... 目录引言传统策略面临的风险管理挑战波动率调整机制：实现风险标准化策略实施的技术细节波动率调整的战略价

阅读更多...

PostgreSQL 序列(Sequence) 与 Oracle 序列对比差异分析

PostgreSQL 序列(Sequence) 与 Oracle 序列对比差异分析

《PostgreSQL序列(Sequence)与Oracle序列对比差异分析》PostgreSQL和Oracle都提供了序列(Sequence)功能,但在实现细节和使用方式上存在一些重要差异,... 目录PostgreSQL 序列(Sequence) 与 oracle 序列对比一基本语法对比1.1 创建序

阅读更多...