第十六章 强化学习 此系列文章旨在提炼周志华《机器学习》的核心要点,不断完善中… 16.1 任务与奖赏 通常使用马尔可夫决策过程(MDP)描述目的:找到能长期积累奖赏最大化策略长期奖赏方式 T步积累奖赏: E [ 1 T ∑ t = 1 T r t ] \mathbb{E}[\frac 1 T\sum_{t=1}^Tr_t] E[T1∑t=1Trt] γ折扣积累奖赏: E [ ∑
看过我昨天的博客,大家肯定对多线程有所了解,今天要讲多线程中比较高层次的东西。首先讲下JDK1.5新出来的线程同步机制---同步锁(Lock),其实和synhronized方法用法差不多,只是更灵活。同步锁有多种,其中一般为了线程安全都用ReentrantLock(可重入锁),eg public class Account{//定义锁对象private final ReentrantLoc