Data Centers Job Scheduling with Deep Reinforcement Learning

本文主要是介绍Data Centers Job Scheduling with Deep Reinforcement Learning，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Data Centers Job Scheduling with Deep Reinforcement Learning

- Data Centers Job Scheduling with Deep Reinforcement Learning
- - 1.介绍
  - 2.相关工作
  - 3.方法和问题表述
  - - 3.1作业调度中的A2C
    - 3.2训练算法
  - 4.实验
  - - 4.1实验计划

Data Centers Job Scheduling with Deep Reinforcement Learning

摘要：A2C调度包含两个agent，一个actor，负责自动学习调度策略，一个critic，负责减少估计误差，A2C调度的设计是为了减少梯度估计误差从而有效的更新参数，

1.介绍

作业调度涉及到限制资源（I/O，CPU，GPU，内存）
数据的异构性是一个挑战，首先，基于策略梯度DRL的调度方法存在高偏差，可能导致计算梯度时的低精度，第二，以前的工作放啊依赖于使用MonteCarlo方法来更新参数，这涉及到大量的计算，尤其是当轨迹中有大量的工作时。
为了去解决上述的挑战，提出了A2C调度。

2.相关工作

2.1深度强化学习中的作业调度
2.2演员评论家强化学习

3.方法和问题表述

3.1作业调度中的A2C

在这里插入图片描述

图1包含了一个actor网络，一个critic网络和集群环境，集群环境包含一个全局队列，一个后备队列和模拟的机器，队列中有等待的作业，后备队列中是队列的扩展（当没有足够的空间为等待的队列时），在每个状态下，只有队列中的工作将会被分配。

A2C的设置
Actor：策略π是一个产生可能动作概率的actor，π是s到a的映射，actor可以根据基于π所形成的的动作概率从队列中选择job ，例如，给定动作的可能性P={p1,p2,pN},有N个动作，pi表示选择动作ai的概率，如果根据最大概率选择动作（action = arg maxi∈[0,N],i∈N+ pi），actor变得贪婪，限制了agent的探索，策略由神经网络π(a|s, θ)来估计。

Critic：状态价值函数v(s)常常用来评估actor的好坏，本文中是由神经网络来估计的v(s，w)
State: s被定义为资源分配状态，包括集群的状态和在队列中的状态，S是一个有限的集合，图片包含三部分：已分配资源的状态，可用资源的状态，队列中作业请求的资源，积压等待作业的状态。调度程序只调度队列中的程序.

在这里插入图片描述

图二是状态张量表示的一个例子, 将被调度的作业数量的决策组合是2^总的job,决策为i表示选择第i个作业,

Action: at= 〖{a_t}〗_1^N表示t时刻队列中等待的作业分配策略,N是队列中等待的作业的槽数,actor的动作空间A指定在下一次迭代中队列所有可能分配的策略,给定N+1个离散的动作{∅,1,2,….N},a_t=i表示队列中第i个作业中的分配, a_t=∅表示没有分配作业的无效操作.
Environment:模拟数据中心包含CPU,RAM,I/O,还包括等待分配作业的资源管理队列系统
Discount Factor:介于0和1之间
Transition function:从当前状态转移到下一状态的概率
Reward function
Critic的损失函数
在这里插入图片描述