安排时间 2022年7月29日-8月01日
第一天
一、强化学习概述
1.强化学习介绍 2.强化学习与其它机器学习的不同
3.强化学习发展历史 4.强化学习典型应用
5.强化学习基本元素 6.强化学习算法分类
二、马尔科夫决策过程
1.马尔可夫性 2.马尔可夫决策过程
3.策略与价值 4.最优化原理
5.MDPs扩展
三、动态规划
1.动态规划 2.价值迭代
3.策略迭代 4.迭代策略评估
5.广义策略迭代 6.维数灾
四、无模型预测学习
1.蒙特卡洛方法 2.时间差分学习
3.n-步回报 4.TD(lambda)
5.资格迹
第二天
五、无模型控制学习
1.蒙特卡洛控制 2.Sarsa
3.重要性采样 4.Q-学习
4.Double Q学习 5.探索与利用
六、价值函数逼近
1.函数逼近器 2.线性函数逼近
3.常见的特征表示方法 4.价值迭代+离散化方法
5.Fitted Q Iteration 6.策略迭代+最小二乘
7.预测学习+随机梯度下降法 8.控制学习+随机梯度下降法
七、策略梯度方法
1.基于策略的强化学习 2.有限差分策略梯度
3.解析法策略梯度 4.REINFORCE算法
5.Actor-Critic 6.策略梯度引入基准
7.自然梯度 8.确定型Actor-Critic
第三天
八、深度强化学习
1.Deep Q learning(DQN) 2.Double DQN
3.Dueling DQN 4.Prioritized Experience Replay
5.A3C/A2C 6.DDPG
7.PPO 8.SAC
实验:倒立摆和冰壶控制实践
实验:OpenAI Gym实践
实验:月球飞船降落任务
实验:自动驾驶赛车任务
李老师:137-1636-8357(同V)