石油勘探吧 关注:134贴子:159
  • 3回复贴,共1

实验: 自动驾驶赛车任务 1.连续控制任务 2.策略梯度方法DDPG/PP

只看楼主收藏回复

看官请移步二楼
其中小实验:
自动驾驶赛车任务
1.连续控制任务
2.策略梯度方法DDPG/PPO高频问题:
适用于高维输入的连续控制任务的深度强化学习方法关键点:
1.掌握DDPG和PPO具体编程实现
2.根据实际需求,选用合理的深度强化学习方法


1楼2022-07-19 09:43回复
    安排时间 2022年7月29日-8月01日
    第一天
    一、强化学习概述
    1.强化学习介绍 2.强化学习与其它机器学习的不同
    3.强化学习发展历史 4.强化学习典型应用
    5.强化学习基本元素 6.强化学习算法分类
    二、马尔科夫决策过程
    1.马尔可夫性 2.马尔可夫决策过程
    3.策略与价值 4.最优化原理
    5.MDPs扩展
    三、动态规划
    1.动态规划 2.价值迭代
    3.策略迭代 4.迭代策略评估
    5.广义策略迭代 6.维数灾
    四、无模型预测学习
    1.蒙特卡洛方法 2.时间差分学习
    3.n-步回报 4.TD(lambda)
    5.资格迹
    第二天
    五、无模型控制学习
    1.蒙特卡洛控制 2.Sarsa
    3.重要性采样 4.Q-学习
    4.Double Q学习 5.探索与利用
    六、价值函数逼近
    1.函数逼近器 2.线性函数逼近
    3.常见的特征表示方法 4.价值迭代+离散化方法
    5.Fitted Q Iteration 6.策略迭代+最小二乘
    7.预测学习+随机梯度下降法 8.控制学习+随机梯度下降法
    七、策略梯度方法
    1.基于策略的强化学习 2.有限差分策略梯度
    3.解析法策略梯度 4.REINFORCE算法
    5.Actor-Critic 6.策略梯度引入基准
    7.自然梯度 8.确定型Actor-Critic
    第三天
    八、深度强化学习
    1.Deep Q learning(DQN) 2.Double DQN
    3.Dueling DQN 4.Prioritized Experience Replay
    5.A3C/A2C 6.DDPG
    7.PPO 8.SAC
    实验:倒立摆和冰壶控制实践
    实验:OpenAI Gym实践
    实验:月球飞船降落任务
    实验:自动驾驶赛车任务
    李老师:137-1636-8357(同V)


    2楼2022-07-19 09:51
    回复


      3楼2022-07-19 09:59
      回复
        等待中


        4楼2022-07-20 09:21
        回复