reinforcement learning【xty19吧】

xty19吧关注：107贴子：1,657

0回复贴，共1页

reinforcement learning

定义（来源于百度）：强化学习是智能体（Agent）以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏，强化学习不同于连接主义学习中的监督学习，主要表现在强化信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号)，而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。
原理（来源于百度）：强化学习把学习看作试探评价过程，Agent选择一个动作用于环境，环境接受该动作后状态发生变化，同时产生一个强化信号(奖或惩)反馈给Agent，Agent根据强化信号和环境当前状态再选择下一个动作，选择的原则是使受到正强化(奖)的概率增大。选择的动作不仅影响立即强化值，而且影响环境下一时刻的状态及最终的强化值。
应用（来源于CSDN）：
强化学习 (Reinforcement Learning) 是一个机器学习大家族中的分支, 由于近些年来的技术突破, 和深度学习 (Deep Learning) 的整合, 使得强化学习有了进一步的运用。比如让计算机学着玩游戏, AlphaGo 挑战世界围棋高手, 都是强化学习在行的事。强化学习也是让你的程序从对当前环境完全陌生, 成长为一个在环境中游刃有余的高手。
优点（来源于CSDN）：
深度强化学习(Deep Reinforcement Learning，DRL)本质上属于采用神经网络作为值函数估计器的一类方法，其主要优势在于它能够利用深度神经网络对状态特征进行自动抽取，避免了人工定义状态特征带来的不准确性，使得Agent能够在更原始的状态上进行学习。
————————————————
原文链接：https://blog.csdn.net/j754379117/article/details/83037799
常见求解方法：
1.动态规划方法：
2.蒙特卡罗方法：
3.时间差分方法：
常见强化学习算法：
1.Q-learning（通过价值选行为，2、3同，基于价值，2、3、5铜，离线学习，3同）：
2.sarsa（在线学习）：
3.Deep Q network:
4.policy gradients(直接选行为，基于概率）：
4.Model based RL（想像环境并从中学习）：
一些改进的强化学习算法：
1.AC算法：
2.DQN算法：
3.A3C算法：不需要GPU
4.PPO算法：

送TA礼物

IP属地:北京

1楼2019-12-25 10:05回复

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

0回复贴，共1页

<返回xty19吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

reinforcement learning

登录百度账号

扫二维码下载贴吧客户端