定义(来源于百度):强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏,强化学习不同于连接主义学习中的监督学习,主要表现在强化信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。
原理(来源于百度):强化学习把学习看作试探评价过程,Agent选择一个动作用于环境,环境接受该动作后状态发生变化,同时产生一个强化信号(奖或惩)反馈给Agent,Agent根据强化信号和环境当前状态再选择下一个动作,选择的原则是使受到正强化(奖)的概率增大。选择的动作不仅影响立即强化值,而且影响环境下一时刻的状态及最终的强化值。
应用(来源于CSDN):
强化学习 (Reinforcement Learning) 是一个机器学习大家族中的分支, 由于近些年来的技术突破, 和深度学习 (Deep Learning) 的整合, 使得强化学习有了进一步的运用。比如让计算机学着玩游戏, AlphaGo 挑战世界围棋高手, 都是强化学习在行的事。强化学习也是让你的程序从对当前环境完全陌生, 成长为一个在环境中游刃有余的高手。
优点(来源于CSDN):
深度强化学习(Deep Reinforcement Learning,DRL)本质上属于采用神经网络作为值函数估计器的一类方法,其主要优势在于它能够利用深度神经网络对状态特征进行自动抽取,避免了人工 定义状态特征带来的不准确性,使得Agent能够在更原始的状态上进行学习。
————————————————
原文链接:https://blog.csdn.net/j754379117/article/details/83037799
常见求解方法:
1.动态规划方法:
2.蒙特卡罗方法:
3.时间差分方法:
常见强化学习算法:
1.Q-learning(通过价值选行为,2、3同,基于价值,2、3、5铜,离线学习,3同):
2.sarsa(在线学习):
3.Deep Q network:
4.policy gradients(直接选行为,基于概率):
4.Model based RL(想像环境并从中学习):
一些改进的强化学习算法:
1.AC算法:
2.DQN算法:
3.A3C算法:不需要GPU
4.PPO算法:
原理(来源于百度):强化学习把学习看作试探评价过程,Agent选择一个动作用于环境,环境接受该动作后状态发生变化,同时产生一个强化信号(奖或惩)反馈给Agent,Agent根据强化信号和环境当前状态再选择下一个动作,选择的原则是使受到正强化(奖)的概率增大。选择的动作不仅影响立即强化值,而且影响环境下一时刻的状态及最终的强化值。
应用(来源于CSDN):
强化学习 (Reinforcement Learning) 是一个机器学习大家族中的分支, 由于近些年来的技术突破, 和深度学习 (Deep Learning) 的整合, 使得强化学习有了进一步的运用。比如让计算机学着玩游戏, AlphaGo 挑战世界围棋高手, 都是强化学习在行的事。强化学习也是让你的程序从对当前环境完全陌生, 成长为一个在环境中游刃有余的高手。
优点(来源于CSDN):
深度强化学习(Deep Reinforcement Learning,DRL)本质上属于采用神经网络作为值函数估计器的一类方法,其主要优势在于它能够利用深度神经网络对状态特征进行自动抽取,避免了人工 定义状态特征带来的不准确性,使得Agent能够在更原始的状态上进行学习。
————————————————
原文链接:https://blog.csdn.net/j754379117/article/details/83037799
常见求解方法:
1.动态规划方法:
2.蒙特卡罗方法:
3.时间差分方法:
常见强化学习算法:
1.Q-learning(通过价值选行为,2、3同,基于价值,2、3、5铜,离线学习,3同):
2.sarsa(在线学习):
3.Deep Q network:
4.policy gradients(直接选行为,基于概率):
4.Model based RL(想像环境并从中学习):
一些改进的强化学习算法:
1.AC算法:
2.DQN算法:
3.A3C算法:不需要GPU
4.PPO算法: