rank16专题

朝着抵抗力最大的路径走-Rank16-强化学习、黑盒攻击、Baseline-SecurityAI

写在最前面的话朝着抵抗力最大的路径走我也不是RL的专家，但我认为GAN是使用RL来解决生成建模问题的一种方式。GAN的不同之处在于，奖励函数对行为是完全已知和可微分的，奖励是非固定的，以及奖励是agent的策略的一个函数。但我认为GAN基本上可以说就是RL。 Ian Goodfellow（生成对抗网络之父）基于上述原则，成绩不重要，我们进行了以下工作。一、强化学习在