基于强化学习的控制率参数自主寻优

2024-06-01 04:36

本文主要是介绍基于强化学习的控制率参数自主寻优,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1.介绍

针对控制建模与设计场景中控制参数难以确定的普遍问题,提出了一种基于强化学习的控制律参数自主优化解决方案。该方案以客户设计的控制律模型为基础,根据自定义的控制性能指标,自主搜索并确定最优的、可状态依赖的控制参数组合。

可用于各类飞行器、机器人等类的控制系统优化。无论是经典的PID控制,还是其他先进的控制方法,该模块都能提供一种通用的参数优化方案。通过与控制律参数自主优化模块的结合,工程师们将获得更多的精力用于控制策略的设计和算法的创新,而将繁琐的参数调试工作交给智能化优化系统完成。

2.应用场景

面向复杂系统的控制建模与控制律设计研发场景,适用于需要频繁进行控制律设计、控制律调整、控制参数调整的研发场景,包括各类机器人设计(机械臂、机械狗、特殊结构如水上水下机器人、拟人机器人等)、各类飞行器设计(固定翼、四旋翼、航天器等)、其他机械设施(汽车、发动机等)。

3.参考示例-基于强化学习的PID参数整定

在控制系统控制器性能分析中,系统阶跃响应对应的超调量、上升时间、调节时间等动态性能指标是关于控制器参数矢量 X 的非线性函数,评价控制器设计优劣的关键性因素。

结合强化学习理论和控制理论知识,设计一种基于强化学习(reinforcement learning, RL)的控制器参数自整定及优化算法。算法将控制参数矢量 X作为智能体的动作,控制系统的响应结果作为状态,引入动态性能指标计算奖励函数,通过在线学习周期性阶跃响应数据、梯度更新控制器参数的方式改变控制器的控制策略,直至满足优化目标,实现参数的自整定及优化。算法原理如下图所示。

根据原理图,参数自整定及优化算法将控制器参数整定问题定义为,求解满足下列不等式约束条件的可行解:

式中: Z为待优化的参数矢量X的取值范围;Ωi(i=1,2,3) 为优化目标的约束值。基于控制系统动态性能指标超调量 δ、上升时间 tr、调节时间 ts,算法定义奖励函数为

算法的参数整定及优化流程如下:

  1. 根据实际条件和需求设定优化目标 Ωi和参数 X的搜索范围 Z,随机初始化参数 X;
  2. 返回步骤 2),重复上述步骤。
  3. 利用梯度下降法更新参数;X=X+α⋅∇X+σ,其中 σ为高斯白噪声,α为自适应学习率
  4. 计算 m个样本的参数平均梯度 X;
  5. 从经验回放集 S 中随机批量抽取 m 个经验样本,将 2) 中数据存入经验回放集 S;
  6. 获得系统在参数 X下的周期阶跃响应数据,计算动态性能指标 δ、tr ts和奖励函数 R;若满足优化目标,则终止迭代,输出参数 X;

为了尽可能获得全局最优的参数,参数自整定及优化算法在更新参数的过程中引入高斯白噪声,增加参数的探索度。同时,算法利用经验回放技术,对过去的经验样本进行随机批量抽样,减弱经验数据的相关性和不平稳分布的影响,增加优化过程的准确性和收敛速度。实践试验中,为避免算法陷入局部死循环,当可行解的变异系数小于一定阈值时,即认为算法已获得局部收敛(近似全局)的相对最优解,保留当前结果并重新搜索。

案例参考自:

YAN Jiazheng,ZHUAN Xiangtao. Parameter self-tuning and optimization algorithm based on reinforcement learning[J]. CAAI
Transactions on Intelligent Systems , 2022, 17(2): 341-347.

这篇关于基于强化学习的控制率参数自主寻优的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1019996

相关文章

Java进阶学习之如何开启远程调式

《Java进阶学习之如何开启远程调式》Java开发中的远程调试是一项至关重要的技能,特别是在处理生产环境的问题或者协作开发时,:本文主要介绍Java进阶学习之如何开启远程调式的相关资料,需要的朋友... 目录概述Java远程调试的开启与底层原理开启Java远程调试底层原理JVM参数总结&nbsMbKKXJx

SpringBoot接收JSON类型的参数方式

《SpringBoot接收JSON类型的参数方式》:本文主要介绍SpringBoot接收JSON类型的参数方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、jsON二、代码准备三、Apifox操作总结一、JSON在学习前端技术时,我们有讲到过JSON,而在

JAVA虚拟机中 -D, -X, -XX ,-server参数使用

《JAVA虚拟机中-D,-X,-XX,-server参数使用》本文主要介绍了JAVA虚拟机中-D,-X,-XX,-server参数使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录一、-D参数二、-X参数三、-XX参数总结:在Java开发过程中,对Java虚拟机(JVM)的启动参数进

解读docker运行时-itd参数是什么意思

《解读docker运行时-itd参数是什么意思》在Docker中,-itd参数组合用于在后台运行一个交互式容器,同时保持标准输入和分配伪终端,这种方式适合需要在后台运行容器并保持交互能力的场景... 目录docker运行时-itd参数是什么意思1. -i(或 --interactive)2. -t(或 --

Java深度学习库DJL实现Python的NumPy方式

《Java深度学习库DJL实现Python的NumPy方式》本文介绍了DJL库的背景和基本功能,包括NDArray的创建、数学运算、数据获取和设置等,同时,还展示了如何使用NDArray进行数据预处理... 目录1 NDArray 的背景介绍1.1 架构2 JavaDJL使用2.1 安装DJL2.2 基本操

Java通过反射获取方法参数名的方式小结

《Java通过反射获取方法参数名的方式小结》这篇文章主要为大家详细介绍了Java如何通过反射获取方法参数名的方式,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1、前言2、解决方式方式2.1: 添加编译参数配置 -parameters方式2.2: 使用Spring的内部工具类 -

Python调用另一个py文件并传递参数常见的方法及其应用场景

《Python调用另一个py文件并传递参数常见的方法及其应用场景》:本文主要介绍在Python中调用另一个py文件并传递参数的几种常见方法,包括使用import语句、exec函数、subproce... 目录前言1. 使用import语句1.1 基本用法1.2 导入特定函数1.3 处理文件路径2. 使用ex

MySQL中时区参数time_zone解读

《MySQL中时区参数time_zone解读》MySQL时区参数time_zone用于控制系统函数和字段的DEFAULTCURRENT_TIMESTAMP属性,修改时区可能会影响timestamp类型... 目录前言1.时区参数影响2.如何设置3.字段类型选择总结前言mysql 时区参数 time_zon

Python如何使用seleniumwire接管Chrome查看控制台中参数

《Python如何使用seleniumwire接管Chrome查看控制台中参数》文章介绍了如何使用Python的seleniumwire库来接管Chrome浏览器,并通过控制台查看接口参数,本文给大家... 1、cmd打开控制台,启动谷歌并制定端口号,找不到文件的加环境变量chrome.exe --rem

Linux中Curl参数详解实践应用

《Linux中Curl参数详解实践应用》在现代网络开发和运维工作中,curl命令是一个不可或缺的工具,它是一个利用URL语法在命令行下工作的文件传输工具,支持多种协议,如HTTP、HTTPS、FTP等... 目录引言一、基础请求参数1. -X 或 --request2. -d 或 --data3. -H 或