David Silver：UCL Reinforcement Learning

课程简介

AlphaGo 主设计者的 RL 经典讲义，重直觉而非推导密度。10 讲覆盖 MDP 基础、动态规划、蒙特卡洛、TD 学习、函数近似、策略梯度、model-based RL。表述清晰，例子丰富，是国际上引用量最高的 RL 入门课之一。

与赵世钰课的关系：Silver 课重直觉推导，是常用的英文入门；赵世钰课推导更严格、覆盖 Actor-Critic 更完整，适合需要数学基础做研究的同学。