【转载】强化学习（七）时序差分离线控制算法Q-Learning

佚名 7年前 (2019-04-07) 随笔 1768人围观抢沙发百度已收录

原文地址：

SRE实战互联网时代守护先锋，助力企业售后服务体系运筹帷幄！一键直达领取阿里云限量特价优惠。

-----------------------------------------------------------------------------------------------------

在强化学习（六）时序差分在线控制算法SARSA中我们讨论了时序差分的在线控制算法SARSA，而另一类时序差分的离线控制算法还没有讨论，因此本文我们关注于时序差分离线控制算法，主要是经典的Q-Learning算法。

　　　　Q-Learning这一篇对应Sutton书的第六章部分和UCL强化学习课程的第五讲部分。

1. Q-Learning算法的引入　　　　

扫码关注我们

微信号：SRE实战

拒绝背锅运筹帷幄

赞 0 赏分享

本文标题：【转载】强化学习（七）时序差分离线控制算法Q-Learning

本文链接：https://www.liuyixiang.com/post/15075.html

评论列表暂无评论

发表评论