Introduction CMU最优控制16-745超详细学习笔记

本文主要是介绍Introduction CMU最优控制16-745超详细学习笔记，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

CMU最优控制16-745超详细学习笔记

背景

跌跌撞撞入坑Optimization-based Motion Planning和Optimal Control已经大半年啦，这大半年来迷迷糊糊看了不少相关资料和论文，想借这个机会来整理一下相关的内容，也算是给自己写论文理清一下思路。

去年年底做一个移动机械臂移动操作mobile manipulation课题看了ETH RSL开源框架OCS2（Optimal Control for Switch System），这是个开源的MPC求解库，里面包含了目前几种主流的MPC求解方法（DDP/iLQR法、基于SQP直接法），最开始是给RSL的四足狗和轮足机器人用的（当然现在也还是），当时为了看代码很头铁把那几篇相关论文论文都啃了，看的也是一知半解，只能说知道里面大概有哪些推导步骤，大概一个流程，但是具体里面具体对应什么代码和计算那是一阵晕。

今年年初因为一些特殊原因，看了许多关于无人机motion planning的论文和代码，飞了浙大高飞老师开源的Ego Planner（感谢那段时间一直被我打扰的朋友和师兄们），对整个机器人的感知、规划和控制都有了一个大致的了解也曾将其中的部分模块用到我自己的移动机械臂运动规划的课题中。在无人机的运动规划框架和核心部分中，也涉及了许多凸优化或者非线性优化知识（汪博的MINCO TRO论文看了我好几遍才看懂），那段时间也是零零散散看了许多拟牛顿法（L-BFGS）、约束软化法、QP求解器等相关知识，也想在本专栏中整理一番。

看这门课的起因是因为我在学校上过的最优化理论课程老师讲的实在是不咋地（当然可能也跟我自己的水平有关），在学校阶段我学过的最优化理论（那门课甚至是运筹学的课本）都是一些很传统的方法，如解LP的单纯形法，解整数规划的匈牙利法，虽然也曾介绍重要的牛顿法，二次规划QP与KKT条件，但是更多的只是介绍一些然后用它们解一些异常简单可以求出解析解的问题。然而，这些解析法在实际的机器人优化中，基本上都是无法直接应用的（除了少数特殊问题），大部分情况解一个机器人中的非线性优化问题都需要在计算机中利用某些迭代方法（如梯度下降法，牛顿法，拟牛顿法）来进行求解，而这一块我在课本上实在是了解地太少。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ougCw3t1-1683984752958)(https://s2.loli.net/2023/05/13/oKPRtMvxO73GqsZ.png)]

课程介绍

CMU 16-745这门课的名字叫做Optimal Control and Reinforcement Learning，授课老师是Zachary Manchester（非常非常感谢老师能把这么好的课开放出来）。最初了解到有这门课是去年年底在youtube冲浪的时候偶然看到，不过当时候直接被吓人的总时长（每节课一个多小时，24个Lecture）和糟糕的手写英文给劝退了，且年末那会也没那么有空，懂得东西也不多。前两个月在知乎看到有人分享了这门课的学习感想和大纲，并且评价都还不错，于是我也做了些准备开始硬刷这门课，致力于好好梳理一下相关知识。所以，在看的时候我非常仔细地做了课程的记录，笔记中不仅包括了老师开放出来的资料还包含了我所记录的课上许多同学问过教授的一些问题以及教授的回答（有些提问非常有利于对知识的理解），还包括了我自己对这些问题的思考。

现在这门课我看了前12个Lecture并完成了前三次HW，可以很负责说，这门课是我目前看过最好最系统的关于利用最优控制的方法进行机器人轨迹优化的教程：

课程从最基本的系统不同离散化方法，带约束最优化方法与工程中常用的方法（Regularization、line search）介绍起，切到机器人控制领域最为常用的LQR与MPC，一步一步地推导并很深入地分析了不同方法之间的优缺点、适用场景与方法的演进，而后介绍并推导目前常用的MPC求解方法（DDP/iLQR与DIRCOL）。整个课程前后连续性非常好，前面所打的基础在后面方法的推导和实现中都会用到。
课上的案例讲解与作业中的问题通过机器人仿真的方式，很好地可视化出课上讲的不同方法之间的差异。并且通过几个常见的案例Acrobot、carpole、四足狗、四旋翼等的控制对各个方法不仅从理论上更从代码层面去了解各个优化方法
课程资料和课上的相关代码均开源，在复习各个方法的时候，不用去翻冗长的视频

几个课程中的案例：

课程大纲：

Lecture 1。连续系统状态方程、平衡点与稳定性。
Lecture 2。离散系统状态方程、数值积分与稳定性
- 计算机控制中更为常见的离散系统状态方程与如何求解平衡点和分析稳定性
- 常见的离散化方法，前向欧拉积分，后向欧拉积分和龙格库塔法，分析不同积分方法对系统稳定性的影响
Lecture 3。求根法与无约束最优化问题，编程中的梯度与雅可比符号约定。引入优化问题的正则化与线搜索
Lecture 4。带等式约束和不等式约束的最优化问题
- 等式约束的KKT条件与拉格朗日乘子法
- 不等式约束的KKT条件。如何用障碍函数法、active set法、罚函数法或增广拉格朗日法处理不等式约束
Lecture 5。对偶性与带约束问题的线搜索和正则化。
- 优化问题的对偶性，推出带约束问题的Regularization方法
- 带约束问题线搜索的指标函数Merit Function与线搜索方法。
HW1布置
- 中点形式的隐式欧拉积分
- 四足狗单脚平衡点寻找
- 写一个QP求解器来仿真falling brick问题
Lecture 6。控制简史与确定性最优控制问题，推导极小值原理PMP。
- 确定性最优控制与随机最优控制问题
- 利用KKT条件推导出庞特里亚金极小值原理
Lecture 7。LQR问题的三种解法与分析，shooting，QP，Riccati。
- 基于PMP的Shooting法
- 将LQR问题看成二次规划QP问题
- 推导Riccati equation。
Lecture 8。LQR系统的能控性与动态规划。
- LQR能控性与离散总步数N的选择
- 利用动态规划DP推导LQR控制率
- DP的优缺点与强化学习
Lecture 9。凸函数与凸集介绍，引入Convex MPC。
HW2布置
- 四组狗单脚平衡LQR控制率
- 基于TVLQR跟踪汽车轨迹
- 基于MPC的火箭软着陆问题
Lecture 10。DDP/iLQR法解非线性轨迹优化问题
- 推导DDP/iLQR的迭代式，说明两者的区别
- 编程中的张量计算（矩阵对向量求导）
Lecture 11。DDP/iLQR法扩展与优缺点
- DDP处理约束的方法
- DDP处理最短时间问题
- DDP优缺点分析
Lecture 12。直接法解非线性优化问题
- SQP介绍
- 直接配点法Direct Collocation
HW3布置
- 基于iLQR/DDP的四旋翼特技飞行轨迹跟踪