Introduction CMU最优控制16-745超详细学习笔记

2024-02-05 17:59

本文主要是介绍Introduction CMU最优控制16-745超详细学习笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

CMU最优控制16-745超详细学习笔记

背景

跌跌撞撞入坑Optimization-based Motion PlanningOptimal Control已经大半年啦,这大半年来迷迷糊糊看了不少相关资料和论文,想借这个机会来整理一下相关的内容,也算是给自己写论文理清一下思路。

去年年底做一个移动机械臂移动操作mobile manipulation课题看了ETH RSL开源框架OCS2(Optimal Control for Switch System),这是个开源的MPC求解库,里面包含了目前几种主流的MPC求解方法(DDP/iLQR法、基于SQP直接法),最开始是给RSL的四足狗和轮足机器人用的(当然现在也还是),当时为了看代码很头铁把那几篇相关论文论文都啃了,看的也是一知半解,只能说知道里面大概有哪些推导步骤,大概一个流程,但是具体里面具体对应什么代码和计算那是一阵晕。

image-20230513160244628

今年年初因为一些特殊原因,看了许多关于无人机motion planning的论文和代码,飞了浙大高飞老师开源的Ego Planner(感谢那段时间一直被我打扰的朋友和师兄们),对整个机器人的感知、规划和控制都有了一个大致的了解也曾将其中的部分模块用到我自己的移动机械臂运动规划的课题中。在无人机的运动规划框架和核心部分中,也涉及了许多凸优化或者非线性优化知识(汪博的MINCO TRO论文看了我好几遍才看懂),那段时间也是零零散散看了许多拟牛顿法(L-BFGS)、约束软化法、QP求解器等相关知识,也想在本专栏中整理一番。

image-20230513160457510

看这门课的起因是因为我在学校上过的最优化理论课程老师讲的实在是不咋地(当然可能也跟我自己的水平有关),在学校阶段我学过的最优化理论(那门课甚至是运筹学的课本)都是一些很传统的方法,如解LP的单纯形法,解整数规划的匈牙利法,虽然也曾介绍重要的牛顿法,二次规划QP与KKT条件,但是更多的只是介绍一些然后用它们解一些异常简单可以求出解析解的问题。然而,这些解析法在实际的机器人优化中,基本上都是无法直接应用的(除了少数特殊问题),大部分情况解一个机器人中的非线性优化问题都需要在计算机中利用某些迭代方法(如梯度下降法,牛顿法,拟牛顿法)来进行求解,而这一块我在课本上实在是了解地太少。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ougCw3t1-1683984752958)(https://s2.loli.net/2023/05/13/oKPRtMvxO73GqsZ.png)]

课程介绍

CMU 16-745这门课的名字叫做Optimal Control and Reinforcement Learning,授课老师是Zachary Manchester(非常非常感谢老师能把这么好的课开放出来)。最初了解到有这门课是去年年底在youtube冲浪的时候偶然看到,不过当时候直接被吓人的总时长(每节课一个多小时,24个Lecture)和糟糕的手写英文给劝退了,且年末那会也没那么有空,懂得东西也不多。前两个月在知乎看到有人分享了这门课的学习感想和大纲,并且评价都还不错,于是我也做了些准备开始硬刷这门课,致力于好好梳理一下相关知识。所以,在看的时候我非常仔细地做了课程的记录,笔记中不仅包括了老师开放出来的资料还包含了我所记录的课上许多同学问过教授的一些问题以及教授的回答(有些提问非常有利于对知识的理解),还包括了我自己对这些问题的思考。

现在这门课我看了前12个Lecture并完成了前三次HW,可以很负责说,这门课是我目前看过最好最系统的关于利用最优控制的方法进行机器人轨迹优化的教程:

  • 课程从最基本的系统不同离散化方法,带约束最优化方法与工程中常用的方法(Regularization、line search)介绍起,切到机器人控制领域最为常用的LQR与MPC,一步一步地推导并很深入地分析了不同方法之间的优缺点、适用场景与方法的演进,而后介绍并推导目前常用的MPC求解方法(DDP/iLQR与DIRCOL)。整个课程前后连续性非常好,前面所打的基础在后面方法的推导和实现中都会用到。
  • 课上的案例讲解与作业中的问题通过机器人仿真的方式,很好地可视化出课上讲的不同方法之间的差异。并且通过几个常见的案例Acrobot、carpole、四足狗、四旋翼等的控制对各个方法不仅从理论上更从代码层面去了解各个优化方法
  • 课程资料和课上的相关代码均开源,在复习各个方法的时候,不用去翻冗长的视频

几个课程中的案例:

课程大纲:

  • Lecture 1。连续系统状态方程、平衡点与稳定性。
  • Lecture 2。离散系统状态方程、数值积分与稳定性
    • 计算机控制中更为常见的离散系统状态方程与如何求解平衡点和分析稳定性
    • 常见的离散化方法,前向欧拉积分,后向欧拉积分和龙格库塔法,分析不同积分方法对系统稳定性的影响
  • Lecture 3。求根法与无约束最优化问题,编程中的梯度与雅可比符号约定。引入优化问题的正则化与线搜索
  • Lecture 4。带等式约束和不等式约束的最优化问题
    • 等式约束的KKT条件与拉格朗日乘子法
    • 不等式约束的KKT条件。如何用障碍函数法、active set法、罚函数法或增广拉格朗日法处理不等式约束
  • Lecture 5。对偶性与带约束问题的线搜索和正则化。
    • 优化问题的对偶性,推出带约束问题的Regularization方法
    • 带约束问题线搜索的指标函数Merit Function与线搜索方法。
  • HW1布置
    • 中点形式的隐式欧拉积分
    • 四足狗单脚平衡点寻找
    • 写一个QP求解器来仿真falling brick问题
  • Lecture 6。控制简史与确定性最优控制问题,推导极小值原理PMP。
    • 确定性最优控制与随机最优控制问题
    • 利用KKT条件推导出庞特里亚金极小值原理
  • Lecture 7。LQR问题的三种解法与分析,shooting,QP,Riccati。
    • 基于PMP的Shooting法
    • 将LQR问题看成二次规划QP问题
    • 推导Riccati equation。
  • Lecture 8。LQR系统的能控性与动态规划。
    • LQR能控性与离散总步数N的选择
    • 利用动态规划DP推导LQR控制率
    • DP的优缺点与强化学习
  • Lecture 9。凸函数与凸集介绍,引入Convex MPC。
  • HW2布置
    • 四组狗单脚平衡LQR控制率
    • 基于TVLQR跟踪汽车轨迹
    • 基于MPC的火箭软着陆问题
  • Lecture 10。DDP/iLQR法解非线性轨迹优化问题
    • 推导DDP/iLQR的迭代式,说明两者的区别
    • 编程中的张量计算(矩阵对向量求导)
  • Lecture 11。DDP/iLQR法扩展与优缺点
    • DDP处理约束的方法
    • DDP处理最短时间问题
    • DDP优缺点分析
  • Lecture 12。直接法解非线性优化问题
    • SQP介绍
    • 直接配点法Direct Collocation
  • HW3布置
    • 基于iLQR/DDP的四旋翼特技飞行轨迹跟踪

小结

这个系列真的写了我很长很长时间,估计也掉了不少头发,虽然有老师开放出来的资料,但是在整理相关课上的提问和一些自己的思考,对作业的编程和结果的展示,都废了很多心思。

第一次写作加上在下才疏学浅,难免有地方错漏的,也麻烦大家指出,我们一起学习。最后,假如对大家有帮助的话,麻烦点个赞吧!!!!
和结果的展示,都废了很多心思。

这篇关于Introduction CMU最优控制16-745超详细学习笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/681725

相关文章

Java调用DeepSeek API的最佳实践及详细代码示例

《Java调用DeepSeekAPI的最佳实践及详细代码示例》:本文主要介绍如何使用Java调用DeepSeekAPI,包括获取API密钥、添加HTTP客户端依赖、创建HTTP请求、处理响应、... 目录1. 获取API密钥2. 添加HTTP客户端依赖3. 创建HTTP请求4. 处理响应5. 错误处理6.

Spring AI集成DeepSeek的详细步骤

《SpringAI集成DeepSeek的详细步骤》DeepSeek作为一款卓越的国产AI模型,越来越多的公司考虑在自己的应用中集成,对于Java应用来说,我们可以借助SpringAI集成DeepSe... 目录DeepSeek 介绍Spring AI 是什么?1、环境准备2、构建项目2.1、pom依赖2.2

Goland debug失效详细解决步骤(合集)

《Golanddebug失效详细解决步骤(合集)》今天用Goland开发时,打断点,以debug方式运行,发现程序并没有断住,程序跳过了断点,直接运行结束,网上搜寻了大量文章,最后得以解决,特此在这... 目录Bug:Goland debug失效详细解决步骤【合集】情况一:Go或Goland架构不对情况二:

Python itertools中accumulate函数用法及使用运用详细讲解

《Pythonitertools中accumulate函数用法及使用运用详细讲解》:本文主要介绍Python的itertools库中的accumulate函数,该函数可以计算累积和或通过指定函数... 目录1.1前言:1.2定义:1.3衍生用法:1.3Leetcode的实际运用:总结 1.1前言:本文将详

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

Java深度学习库DJL实现Python的NumPy方式

《Java深度学习库DJL实现Python的NumPy方式》本文介绍了DJL库的背景和基本功能,包括NDArray的创建、数学运算、数据获取和设置等,同时,还展示了如何使用NDArray进行数据预处理... 目录1 NDArray 的背景介绍1.1 架构2 JavaDJL使用2.1 安装DJL2.2 基本操

Spring Boot整合log4j2日志配置的详细教程

《SpringBoot整合log4j2日志配置的详细教程》:本文主要介绍SpringBoot项目中整合Log4j2日志框架的步骤和配置,包括常用日志框架的比较、配置参数介绍、Log4j2配置详解... 目录前言一、常用日志框架二、配置参数介绍1. 日志级别2. 输出形式3. 日志格式3.1 PatternL

Springboot 中使用Sentinel的详细步骤

《Springboot中使用Sentinel的详细步骤》文章介绍了如何在SpringBoot中使用Sentinel进行限流和熔断降级,首先添加依赖,配置Sentinel控制台地址,定义受保护的资源,... 目录步骤 1: 添加 Sentinel 依赖步骤 2: 配置 Sentinel步骤 3: 定义受保护的

本地私有化部署DeepSeek模型的详细教程

《本地私有化部署DeepSeek模型的详细教程》DeepSeek模型是一种强大的语言模型,本地私有化部署可以让用户在自己的环境中安全、高效地使用该模型,避免数据传输到外部带来的安全风险,同时也能根据自... 目录一、引言二、环境准备(一)硬件要求(二)软件要求(三)创建虚拟环境三、安装依赖库四、获取 Dee

MySql9.1.0安装详细教程(最新推荐)

《MySql9.1.0安装详细教程(最新推荐)》MySQL是一个流行的关系型数据库管理系统,支持多线程和多种数据库连接途径,能够处理上千万条记录的大型数据库,本文介绍MySql9.1.0安装详细教程,... 目录mysql介绍:一、下载 Mysql 安装文件二、Mysql 安装教程三、环境配置1.右击此电脑