Paper Note | Efficient DRL-Based Congestion Control With Ultra-Low Overhead

本文主要是介绍Paper Note | Efficient DRL-Based Congestion Control With Ultra-Low Overhead，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

Introduction
Design
- RL Agent
- CC Executor
- Hierarchical Recurrent Architecture

Introduction

深度强化学习能够用于网络拥塞控制决策中，但是之前的DRL方案耗时且占用了很多CPU资源。这篇文章提出了一种低开销的DRL方案，实现细粒度的包级别控制。

SPINE采用了层次控制架构，包含一个轻量级的CC执行器，对每个ACK和丢包进行反应，和一个DRL策略生成器，周期性地生成CC执行器的控制sub-policy（基于AIMD的轻量级参数化的控制逻辑）。除此之外，SPINE还引入watcher，判断当前的sub-policy的效果好坏，根据需要进行更新，以减少策略生成频率。

Design

SPINE架构图如下：
在这里插入图片描述
policy generator和watcher共同组成了RL agent，追踪流量模式并更新sub-policy。SPINE利用了层次控制逻辑，间隔monitor interval（MI）， watcher观察包特征，如有需要就触发policy generator。

在这里插入图片描述

RL Agent

每隔MI，RL agent通过收集包信息，察觉网络环境，其作为状态，被放入深度神经网络模型中，决定是否更新sub-policy，如果trigger是True，模型将会生成sub-policy的新参数，并更新CC执行器。

State：收集包统计信息，作为state，如下：
在这里插入图片描述
其中吞吐量和延迟均已正则化（对最大吞吐量和最小延迟）。由于SPINE更新sub-policy间隔很长，所以采用了RNN作为网络模型来抓取long-term历史特征。

Reward：CC执行器调整流发送速率，每个MI收集reward。奖励函数如下：
在这里插入图片描述
公式(1)的第一项是正则化吞吐量和正则化延迟的比值，加上丢包的惩罚，lat’是指小的排队延迟可以被允许来实现最大带宽。第二项定义触发policy generator更新sub-policy的惩罚（pit stop penalty），因为其会导致policy generator的推理开销和cross-space的通信。

CC Executor

参数化的sub-policy结构需要有如下特征：简单（低计算开销）、细粒度控制（快速相应）和灵活（估计各种各样的映射）。

基于这些特征，设计了基于AIMD的sub-policy，每个RTT将发送速率乘以1.1，cwnd的大小变化如下：
在这里插入图片描述
这里 $0\leq \alpha_{thr}, \alpha_{lat} \leq 0.5, 0\leq \alpha_{tol} \leq 20$ 。如果 $\frac{RTT}{RTT_{min}}$ 低于 $\alpha_{tol} + 1$ ，它判断链路不是拥塞的，增加cwnd，否则减小cwnd。

当丢包发生时，CC执行器对cwnd执行乘性减：
在这里插入图片描述

在cwnd更新后，CC executor计算新的发送速率：
在这里插入图片描述

综上，参数（ $\alpha_{thr}, \alpha_{lat}, \alpha_{tol}, \alpha_{loss}$ ）定义了sub-policy的行为，这些参数就是policy generator的action，每当其被触发，就生成这些参数，更新sub-policy。

Hierarchical Recurrent Architecture

设计了一个分层循环架构神经网络模型，第一层表示watcher，输入state，适应性地触发policy generator，第二层表示policy generator，输出ation。
在这里插入图片描述
每个时间节点，watcher收到来自policy generator和watcher的hidden state，然后输出是否触发上层的flag和新的hidden state。

触发的flag定义为：

policy generator基于trigger进行工作：