Dynamic Programming 2021-05-01 2021-05-31强化学习5 分钟读完 (大约792个字)DP方法简介 由于其大量的计算损耗,已经不实用,但理论上非常重要。 本书后续的所有方法可以看做想要取得和DP类似的效果;只不过是减少了计算或者假设没有完美的环境模型。 假设解决的问题是有限的MDP,即给定动作a,状态s,和奖励r,可以通过\(p(s',r|s,a)\)描述动态变化。 笔记, Dynamic Programming 阅读更多