西湖赵世钰:强化学习的数学原理
课程简介
- 所属大学:西湖
- 授课教师:赵世钰
- 先修要求:概率论、线性代数、Python
- 课程难度:🌟🌟🌟🌟
- 预计学时:54 讲(约 54 小时)
国内 RL 理论教学的标杆课程。从贝尔曼方程推导出发,严格讲清 状态价值函数、动作价值函数、策略梯度、Actor-Critic 架构的数学关系,而不是停留在直觉类比。覆盖:动态规划(策略迭代/价值迭代)、蒙特卡洛方法、时序差分(TD/SARSA/Q-Learning)、函数近似、策略梯度(REINFORCE/PPO)。
配套开源教材《数学基础强化学习》(GitHub)推导完整,与视频一一对应,是罕见能做到“看完就能读理论论文”的中文课程。
课程资源
- 课程视频(B 站官方):强化学习的数学原理 — 54P
- 配套教材(开源):MathFoundationRL GitHub