跳转至

西湖赵世钰:强化学习的数学原理

课程简介

  • 所属大学:西湖
  • 授课教师:赵世钰
  • 先修要求:概率论、线性代数、Python
  • 课程难度:🌟🌟🌟🌟
  • 预计学时:54 讲(约 54 小时)

国内 RL 理论教学的标杆课程。从贝尔曼方程推导出发,严格讲清 状态价值函数、动作价值函数、策略梯度、Actor-Critic 架构的数学关系,而不是停留在直觉类比。覆盖:动态规划(策略迭代/价值迭代)、蒙特卡洛方法、时序差分(TD/SARSA/Q-Learning)、函数近似、策略梯度(REINFORCE/PPO)。

配套开源教材《数学基础强化学习》(GitHub)推导完整,与视频一一对应,是罕见能做到“看完就能读理论论文”的中文课程。

课程资源